Godt på vej

2026-04-02 23:36:17 +02:00
parent b05f6b8857
commit 18526f8b45
9 changed files with 1567 additions and 0 deletions
--- a/udpak_semistruktur/config.py
+++ b/udpak_semistruktur/config.py
@@ -0,0 +1,471 @@
 import os
 import re
 import yaml
 import hashlib
 from typing import Any
 from datetime import datetime
 from copy import deepcopy
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 # =========================
 # Hjælpefunktioner
 # =========================
 def _resolve_include_path(base_file: str, include_path: str) -> str:
    """Gør relative include-stier relative til YAML-filens mappe."""
    if os.path.isabs(include_path):
        return include_path
    base_dir = os.path.dirname(os.path.abspath(base_file))
    return os.path.abspath(os.path.join(base_dir, include_path))
 def _deep_merge_dicts(a: dict, b: dict) -> dict:
    """Dyb-merge a <- b. Lister overskrives (undtagen håndteres særskilt i deep_merge_lists)."""
    a = a or {}
    b = b or {}
    out = dict(a)
    for k, v in b.items():
        if isinstance(v, dict) and isinstance(out.get(k), dict):
            out[k] = _deep_merge_dicts(out[k], v)
        else:
            out[k] = deepcopy(v)
    return out
 def deep_merge_lists(base_cfg: dict, incoming_cfg: dict) -> dict:
    """
    Robust top-level merge a <- b:
    - Dicts merges rekursivt.
    - For nøglen 'output_filer' APPEND'er vi (liste + liste).
    - Øvrige lister overskrives.
    Håndterer at en af parterne kan være None.
    """
    base_cfg = base_cfg or {}
    incoming_cfg = incoming_cfg or {}
    if not isinstance(base_cfg, dict) or not isinstance(incoming_cfg, dict):
        return deepcopy(incoming_cfg)
    out = dict(base_cfg)
    for key, value in incoming_cfg.items():
        if key == "output_filer":
            base_list = out.get("output_filer")
            if not isinstance(base_list, list):
                base_list = [] if base_list is None else [base_list]
            if isinstance(value, list):
                out["output_filer"] = base_list + deepcopy(value)
            elif value is None:
                out["output_filer"] = base_list
            else:
                out["output_filer"] = base_list + [deepcopy(value)]
        else:
            existing = out.get(key)
            if isinstance(existing, dict) and isinstance(value, dict):
                out[key] = deep_merge_lists(existing, value)
            else:
                out[key] = deepcopy(value)
    return out
 def _expand_output_groups_new_only(cfg: dict) -> dict:
    """
    Kræv den nye grupperede form for 'output_filer':
      - hvert element: { navn?, rod, kolonner(list), outputs: [ {type:'fil'|'tabel', ...}, ... ] }
      - 'type' kan udelades hvis fil/tabel kan udledes (fil_navn/tabel_navn).
      - 'overskrifter' på gruppeniveau bruges som default til fil-børn, hvis de ikke selv sætter det.
    Returnerer cfg med flad 'output_filer'.
    """
    if "output_filer" not in cfg or not isinstance(cfg["output_filer"], list):
        raise ValueError("'output_filer'-sektionen skal være en liste af grupper.")
    flattened = []
    for idx, group in enumerate(cfg["output_filer"]):
        if not isinstance(group, dict):
            raise ValueError(f"'output_filer' element #{idx+1} skal være et objekt.")
        if "outputs" not in group or not isinstance(group["outputs"], list) or not group["outputs"]:
            raise ValueError(f"Gruppe #{idx+1} mangler en ikke-tom 'outputs'-liste.")
        # Fælles felter – KRÆVES
        if "rod" not in group:
            raise ValueError(f"Gruppe #{idx+1} mangler 'rod'.")
        if "kolonner" not in group or not isinstance(group["kolonner"], list):
            raise ValueError(f"Gruppe #{idx+1} mangler 'kolonner' (liste).")
        common = {
            "rod": group["rod"],
            "kolonner": deepcopy(group["kolonner"]),
        }
        if "hvis_findes" in group:
            common["hvis_findes"] = deepcopy(group["hvis_findes"])
        group_default_headers = group.get("overskrifter", None)  # optional default for filer
        for cidx, child in enumerate(group["outputs"]):
            if not isinstance(child, dict):
                raise ValueError(f"outputs-element #{cidx+1} i gruppe #{idx+1} skal være et objekt.")
            # Udled type, hvis mulig
            ctype = child.get("type")
            if ctype is None:
                if "fil_navn" in child:
                    ctype = "fil"
                elif "tabel_navn" in child:
                    ctype = "tabel"
                else:
                    raise ValueError(f"outputs-element #{cidx+1} i gruppe #{idx+1} mangler 'type' og kan ikke udledes.")
            if ctype not in ("fil", "tabel"):
                raise ValueError(f"outputs-element #{cidx+1} i gruppe #{idx+1} har ukendt type '{ctype}'.")
            merged = _deep_merge_dicts(common, child)
            # Sikr præcis én destination
            has_file = "fil_navn" in merged
            has_table = "tabel_navn" in merged
            if has_file and has_table:
                raise ValueError(f"outputs-element #{cidx+1} i gruppe #{idx+1} må ikke have både 'fil_navn' og 'tabel_navn'.")
            if not has_file and not has_table:
                raise ValueError(f"outputs-element #{cidx+1} i gruppe #{idx+1} skal have enten 'fil_navn' eller 'tabel_navn'.")
            # 'overskrifter' gælder kun for filer; brug gruppens default hvis ikke sat
            if ctype == "fil":
                if "overskrifter" not in merged and group_default_headers is not None:
                    merged["overskrifter"] = group_default_headers
            else:
                merged.pop("overskrifter", None)
            # Lidt housekeeping
            merged["type"] = ctype
            if "navn" in group:
                merged["_gruppe_navn"] = group["navn"]
            flattened.append(merged)
    out = dict(cfg)
    out["output_filer"] = flattened
    return out
 # =========================
 # Hovedfunktion
 # =========================
 def valider_yaml(yaml_file_path: str) -> dict:
    """
    Validerer YAML-konfigurationen og udvider env-variabler.
    Understøtter KUN den nye grupperede model for 'output_filer'.
    """
    # 1) Eksistens
    if not os.path.exists(yaml_file_path):
        raise FileNotFoundError(f"Konfigurationsfilen '{yaml_file_path}' findes ikke.")
    # 2) Indlæs base
    with open(yaml_file_path, "r", encoding="utf-8") as f:
        config = yaml.safe_load(f) or {}
    # 3) Env-vars før include
    config = erstat_env_vars(config)
    # 4) Include
    combined = {k: v for k, v in config.items() if k != "include"}
    included_files = config.get("include", [])
    if isinstance(included_files, str):
        included_files = [included_files]
    for inc in included_files:
        resolved = _resolve_include_path(yaml_file_path, inc)
        if not os.path.exists(resolved):
            raise FileNotFoundError(f"Inkluderet YAML-fil '{inc}' findes ikke!")
        with open(resolved, "r", encoding="utf-8") as f:
            inc_cfg = yaml.safe_load(f) or {}
            inc_cfg = erstat_env_vars(inc_cfg)
            combined = deep_merge_lists(combined, inc_cfg)
    config = combined
    config.pop("include", None)
    # 5) Kræv 'config'
    if "config" not in config:
        raise ValueError("YAML-filen skal indeholde en 'config'-sektion.")
    # 6) Env-vars igen (efter merge)
    config = erstat_env_vars(config)
    global_config = config["config"]
    # 7) Rensedata
    rens_intervaller = []
    rens_intervaller_erstats = []
    rens_chars = {}
    rens_cfg = config.get("rens", {}) or {}
    for group_name, group_items in rens_cfg.items():
        if group_name == "regex":
            continue
        if not isinstance(group_items, list):
            continue
        for item in group_items:
            if isinstance(item, dict):
                tegn = item.get("tegn")
                erstat = item.get("erstat", "")
            else:
                tegn = item
                erstat = ""
            if isinstance(tegn, str) and "-" in tegn and len(tegn) >= 3:
                rens_intervaller.append(tegn)
                rens_intervaller_erstats.append(erstat)
            else:
                rens_chars[tegn] = erstat
    if rens_intervaller:
        parts = [f"(?P<i{i}>[{interval}])" for i, interval in enumerate(rens_intervaller)]
        rens_regex = re.compile("|".join(parts), flags=re.UNICODE)
    else:
        rens_regex = None
    rens_regex_rules = []
    for rx in rens_cfg.get("regex", []) or []:
        pattern = rx.get("mønster") or rx.get("monster") or rx.get("pattern")
        repl = rx.get("erstat", "")
        if pattern:
            rens_regex_rules.append((re.compile(pattern, flags=re.UNICODE), repl))
    global_config["rens_intervaller_regex"] = rens_regex
    global_config["rens_intervaller_erstats"] = rens_intervaller_erstats
    global_config["rens_all_chars"] = rens_chars
    global_config["rens_regex_rules"] = rens_regex_rules
    # 8) Output-sti
    if "output_path" in global_config and global_config["output_path"] is not None:
        sti = str(global_config["output_path"])
        if not sti.endswith(os.sep):
            sti += os.sep
            global_config["output_path"] = sti
        if not os.path.exists(global_config["output_path"]):
            raise FileNotFoundError(f"Output-stien '{global_config['output_path']}' findes ikke.")
        if not os.access(global_config["output_path"], os.W_OK):
            raise PermissionError(f"Output-stien '{global_config['output_path']}' er ikke skrivbar.")
    # 9) Dato
    if "dato" in global_config and global_config["dato"] is not None:
        if "dato_format" not in global_config:
            raise ValueError("Hvis 'dato' er angivet i YAML, skal 'dato_format' også være til stede.")
        try:
            global_config["dato"] = datetime.strptime(str(global_config["dato"]), str(global_config["dato_format"]))
        except ValueError:
            raise ValueError(
                f"Forkert datoformat i config: '{global_config['dato']}'. "
                f"Forventet format: '{global_config['dato_format']}'."
            )
    else:
        global_config["dato"] = datetime.now()
    # 10) Output-filer (NY model -> flad)
    config = _expand_output_groups_new_only(config)
    # 11) Basisvalideringer pr. output
    if "output_filer" not in config or not isinstance(config["output_filer"], list) or not config["output_filer"]:
        raise ValueError("'output_filer' skal være en ikke-tom liste (efter grupper er udvidet).")
    for file_cfg in config["output_filer"]:
        if not isinstance(file_cfg, dict):
            raise ValueError("Hvert output-element skal være et objekt.")
        if ("fil_navn" in file_cfg) == ("tabel_navn" in file_cfg):
            raise ValueError("Hvert output skal have præcis én af 'fil_navn' eller 'tabel_navn'.")
        if "rod" not in file_cfg:
            raise ValueError("Hvert output skal have en 'rod'.")
        if "kolonner" not in file_cfg or not isinstance(file_cfg["kolonner"], list):
            raise ValueError("Hvert output skal have 'kolonner' som en liste.")
        if "tabel_navn" in file_cfg:
            file_cfg.pop("overskrifter", None)  # kun relevant for filer
        if "hvis_findes" in file_cfg:
            hf = file_cfg["hvis_findes"]
            if isinstance(hf, str):
                file_cfg["hvis_findes"] = [hf]
                hf = file_cfg["hvis_findes"]
            if not isinstance(hf, list):
                raise ValueError("'hvis_findes' skal være en streng eller en liste af strenge.")
            for i, sti in enumerate(hf):
                if not isinstance(sti, str) or not sti.strip():
                    raise ValueError(f"'hvis_findes' element #{i+1} skal være en ikke-tom streng.")
        # Hash-validering
        hash_fields = [c for c in file_cfg["kolonner"] if isinstance(c, dict) and c.get("type") == "hash"]
        if len(hash_fields) > 1:
            raise ValueError("Der må maksimalt være én 'hash'-kolonne pr. output.")
        if hash_fields:
            algo = hash_fields[0].get("hash_algorithm", "sha256")
            if algo not in hashlib.algorithms_guaranteed:
                raise ValueError(f"Forkert HASH-algoritme: '{algo}'. Gyldige værdier: {', '.join(sorted(hashlib.algorithms_guaranteed))}")
        # Kolonne-regler
        for col in file_cfg["kolonner"]:
            if not isinstance(col, dict):
                continue  # skabelon-kortform er OK
            if col.get("type") == "hash" and "felt" in col:
                raise ValueError("En 'hash'-kolonne må ikke have et 'felt'.")
            if col.get("type") == "id" and "felt" in col:
                raise ValueError("En 'id'-kolonne må ikke have et 'felt'.")
        # Udfyld manglende kolonnenavne (ikke for skabelon/hash/id)
        for i, col in enumerate(file_cfg["kolonner"]):
            if isinstance(col, dict):
                if not col.get("navn") and col.get("type") not in ("hash", "id") and "skabelon" not in col:
                    col["navn"] = f"kolonne_{i+1}"
        # Dubletnavne
        navne = [c.get("navn") for c in file_cfg["kolonner"] if isinstance(c, dict) and c.get("navn")]
        dups = sorted({n for n in navne if navne.count(n) > 1})
        if dups:
            target = file_cfg.get("fil_navn", file_cfg.get("tabel_navn", "ukendt"))
            raise ValueError(f"Kolonnenavne i output '{target}' indeholder dubletter: {', '.join(dups)}")
    # 12) Input-krav
    if not ("input_fil" in global_config or "input_fil_liste" in global_config):
        raise ValueError("Der skal være enten 'input_fil' eller 'input_fil_liste' i 'config'-sektionen.")
    if "input_fil" in global_config and "input_fil_liste" in global_config:
        raise ValueError("Kun én af 'input_fil' eller 'input_fil_liste' må angives i 'config'.")
    # 13) Defaults
    global_config.setdefault("miljø", "udv")
    global_config.setdefault("skrivetilstand", "w")
    global_config.setdefault("encoding", "utf-8")
    global_config.setdefault("separator", "\t")
    global_config.setdefault("logfil", "log_{yyyy}{mm}{dd}.txt")
    global_config.setdefault("debug", False)
    global_config.setdefault("dan_ok", True)
    global_config.setdefault("global_rens", False)
    global_config.setdefault("global_fjern_linjeskift", False)
    global_config.setdefault("global_dato_ind", "%Y-%m-%d")
    global_config.setdefault("global_dato_ud", "%Y-%m-%d")
    global_config.setdefault("fejl_fil_ext", None)
    global_config.setdefault("stop_ved_0_output", False)
    global_config.setdefault("db_char_set", "latin-1")
    # 14) Logfilnavn formateres med dato
    global_config["logfil"] = str(global_config["logfil"]).format(
        yy=global_config["dato"].strftime("%y"),
        yyyy=global_config["dato"].strftime("%Y"),
        mm=global_config["dato"].strftime("%m"),
        dd=global_config["dato"].strftime("%d"),
    )
    # 15) Timestamp
    global_config["var_timestamp"] = datetime.now().strftime("%Y-%m-%dT%H:%M:%S.%f")
    # 16) Debug
    if global_config.get("debug") is True:
        logger.debug("YAML-konfigurationen er gyldig.")
    # 17) Udvid kolonne-skabeloner (din eksisterende funktion)
    config = udvid_kolonne_skabeloner(config)
    return config
 def erstat_env_vars(config: Any) -> Any:
    """Erstatter miljøvariabler på formen ${VAR} rekursivt i config-strukturen."""
    if isinstance(config, dict):
        return {key: erstat_env_vars(value) for key, value in config.items()}
    elif isinstance(config, list):
        return [erstat_env_vars(item) for item in config]
    elif isinstance(config, str):
        # Find og erstat alle miljøvariabler
        start_index = config.find("${")
        while start_index != -1:
            end_index = config.find("}", start_index)
            if end_index == -1:
                break  # Ugyldigt format, stop
            env_var = config[start_index + 2:end_index]  # Udhent miljøvariabelnavn
            env_value = os.getenv(env_var, None)  # Hent værdi fra miljøet
            if env_value is None:
                raise ValueError(f"Miljøvariabel '{env_var}' er ikke sat, men bruges i config-filen!")
            config = config.replace(f"${{{env_var}}}", env_value)  # Erstat variablen
            start_index = config.find("${")  # Søg efter næste variabel
        return config
    else:
        return config  # Returnér uændret, hvis det ikke er en streng
 def udvid_kolonne_skabeloner(config: dict) -> dict:
    """Ekspanderer kolonne-skabelon-referencer i output_filer til flade kolonner."""
    skabeloner = config.get("kolonne_skabeloner", {})
    def expand_template(skabelonnavn, prefix="", prefix_felt="", skabelon_rod=""):
        if skabelonnavn not in skabeloner:
            raise ValueError(f"Skabelon '{skabelonnavn}' findes ikke.")
        udvidede = []
        for item in skabeloner[skabelonnavn]:
            # Tjek om dette element definerer en ny rod
            aktuel_rod = item.get("rod", "")
            ny_rod = skabelon_rod
            if aktuel_rod:
                if skabelon_rod and skabelon_rod != aktuel_rod:
                    raise ValueError(f"Konflikt: To rødder fundet ('{skabelon_rod}' og '{aktuel_rod}') i skabelon '{skabelonnavn}'.")
                ny_rod = aktuel_rod
            if "skabelon" in item:
                under_skabelon = item["skabelon"]
                under_prefix = prefix + item.get("prefix", item.get("prefix_navn", ""))
                under_prefix_felt = prefix_felt + item.get("prefix_felt", "")
                if under_prefix_felt and not under_prefix_felt.endswith("."):
                    under_prefix_felt += "."
                # Giv den fundne rod videre til næste niveau
                udvidede.extend(expand_template(under_skabelon, under_prefix, under_prefix_felt, ny_rod))
            else:
                nyt_item = item.copy()
                nyt_item["navn"] = prefix + item["navn"]
                if "felt" in nyt_item and nyt_item["felt"]:
                    nyt_item["felt"] = prefix_felt + item["felt"]
                # Sæt roden hvis den findes, ellers fejler vi ikke her (da den kan mangle helt)
                if ny_rod:
                    nyt_item["rod"] = ny_rod
                udvidede.append(nyt_item)
        return udvidede
    for output_fil in config.get("output_filer", []):
        nye_kolonner = []
        for kol in output_fil.get("kolonner", []):
            if "skabelon" in kol:
                skabelon_rod = kol.get("rod", "")
                prefix = kol.get("prefix", kol.get("prefix_navn", ""))
                prefix_felt = kol.get("prefix_felt", "")
                if prefix_felt:
                    if not prefix_felt.endswith("."):
                        prefix_felt += "."                
                nye_kolonner.extend(expand_template(
                    kol["skabelon"], 
                    prefix, 
                    prefix_felt, 
                    skabelon_rod
                ))
            else:
                nye_kolonner.append(kol)
        output_fil["kolonner"] = nye_kolonner
    return config
--- a/udpak_semistruktur/db.py
+++ b/udpak_semistruktur/db.py
@@ -0,0 +1,62 @@
 import os
 import json
 import base64
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def læs_json_fil(global_config: dict) -> tuple[str, str, str, str, str]:
    """Henter database-credentials fra pwd.json baseret på miljø i global_config."""
    base_path = os.environ.get("PMROOTDIR")
    if not base_path:
        logger.error("Miljøvariablen 'PMROOTDIR' er ikke sat.")
        raise EnvironmentError("Miljøvariablen 'PMROOTDIR' er ikke sat.")
    if global_config["miljø"].lower() == "prd":
        env = "BASE_PROD"
        host = "sdpaseprdbase.ccta.dk"
        port = "7001"
    elif global_config["miljø"].lower() == "pre":
        env = "BASE_PRE"
        host = "sdpasepredb01.ccta.dk"
        port = "7101"
    elif global_config["miljø"].lower() == "udv":
        env = "BASE_UDV"
        host = "sdpaseudvdb01.ccta.dk"
        port = "7301"
    else:
        logger.error(f"Ukendt database-miljø: '{global_config['miljø']}'.")
        raise ValueError(f"Ukendt database-miljø: '{global_config['miljø']}'.")
    filnavn = os.path.join(base_path, "tools", "nogler", "pwd.json")
    brugernavn = ""
    password = ""
    try:
        with open(filnavn, 'r', encoding='utf-8') as fil:
            data = json.load(fil)
            for nøgle, værdier in data.items():
                if nøgle == env:
                    if len(værdier) >= 2:
                        brugernavn = værdier[0]
                        password = base64.b64decode(værdier[1]).decode("utf-8")
                    else:
                        logger.error("Fejl i data, ikke nok værdier!")
                        raise ValueError(f"Fejl i credentials-fil: ikke nok værdier for '{env}'.")
    except FileNotFoundError:
        logger.error(f"Credentials-filen '{filnavn}' blev ikke fundet.")
        raise
    except json.JSONDecodeError as e:
        logger.error(f"Fejl ved indlæsning af JSON fra '{filnavn}': {e}")
        raise
    if brugernavn == "":
        raise ValueError("Kunne ikke finde brugernavn og adgangskode i credentials-filen.")
    return brugernavn, password, env, host, port
--- a/udpak_semistruktur/extract/reader.py
+++ b/udpak_semistruktur/extract/reader.py
@@ -0,0 +1,129 @@
 import os
 import json
 import codecs
 import re
 import xmltodict
 from pathlib import Path
 from typing import Any, Generator, Optional
 from charset_normalizer import from_path
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def detect_file_info(file_path: str) -> tuple[str, str]:
    """
    Returnerer (file_type, encoding).
    file_type ∈ {'xml','json','ukendt'}.
    Robust mod BOM og UTF-16/32.
    """
    # --- filendelse som hint ---
    ext = os.path.splitext(file_path)[1].lower()
    ext_hint = "xml" if ext == ".xml" else "json" if ext == ".json" else None
    # --- sniff bytes ---
    with open(file_path, "rb") as f:
        data = f.read(4096)
    if not data:
        # tom fil → ukendt, men behold evt. hint
        enc_guess = "utf-8"
        return (ext_hint or "ukendt", enc_guess)
    # strip BOMs (for at gøre type-sniff lettere)
    for bom in (codecs.BOM_UTF8, codecs.BOM_UTF16_LE, codecs.BOM_UTF16_BE,
                codecs.BOM_UTF32_LE, codecs.BOM_UTF32_BE):
        if data.startswith(bom):
            data = data[len(bom):]
            break
    # tillad nulbytes imellem tegn (UTF-16/32)
    def spaced_bytes(s: bytes) -> bytes:
        return b"".join(re.escape(bytes([b])) + b"\x00*" for b in s)
    xml_patterns = [
        re.compile(spaced_bytes(b"<?xml"), re.IGNORECASE),
        re.compile(spaced_bytes(b"<!--"), re.IGNORECASE),
        re.compile(spaced_bytes(b"<"), re.IGNORECASE),
    ]
    json_patterns = [
        re.compile(spaced_bytes(b"{")),
        re.compile(spaced_bytes(b"[")),
    ]
    data_l = re.sub(br"^[\x00\s]+", b"", data)
    is_xml  = any(p.search(data_l) for p in xml_patterns)
    is_json = any(p.search(data_l) for p in json_patterns)
    if is_xml and not is_json:
        ftype = "xml"
    elif is_json and not is_xml:
        ftype = "json"
    elif is_xml and is_json:
        ftype = ext_hint or "ukendt"
    else:
        ftype = ext_hint or "ukendt"
    # --- encoding-detect (charset-normalizer) ---
    res = from_path(file_path).best()
    enc = res.encoding if res else "utf-8"
    logger.debug(f"Detekteret type={ftype}, encoding={enc} for {os.path.basename(file_path)}")
    return (ftype, enc)
 def læs_filer(
    config: dict,
    input_fil: Optional[str] = None,
    input_fil_liste: Optional[str] = None,
    keep_prefixes: bool = True,
 ) -> Generator[Any, None, None]:
    """
    Generator der læser én eller flere filer:
    - Sniffer type+encoding (detect_file_info)
    - Åbner med korrekt encoding (fallback ved decode-fejl)
    - Parser JSON/XML (xmltodict)
    - keep_prefixes=True: bevar 'cm:Tag' (anbefalet til din præfiks-fallback)
      keep_prefixes=False: brug process_namespaces=True → '{uri}LocalName'
    """
    stop_file_path = os.path.join(config["output_path"], "stop.txt")
    def load_file(file_path):
        file_type, encoding = detect_file_info(file_path)
        logger.info(f"Læser filen: {file_path} (type={file_type}, encoding={encoding})")
        config["current_file"] = os.path.basename(file_path)
        # Læs med detekteret encoding; fallback hvis nødvendigt
        try:
            with open(file_path, 'r', encoding=encoding) as f:
                content = f.read()
        except UnicodeDecodeError:
            with open(file_path, 'r', encoding='utf-8', errors='replace') as f:
                content = f.read()
        if file_type == "json":
            return json.loads(content)
        elif file_type == "xml":
            if keep_prefixes:
                # bevar 'cm:Tag' nøgler → passer til din eksisterende prefix-fallback
                return xmltodict.parse(content)
            else:
                # brug '{uri}LocalName' nøgler (kræver din URI-matchlogik)
                return xmltodict.parse(content, process_namespaces=True)
        else:
            raise ValueError(f"Ukendt eller ikke-understøttet filtype: {file_path}")
    if input_fil:
        yield load_file(input_fil)
    elif input_fil_liste:
        logger.info("Læser fillisten: " + input_fil_liste)
        with open(input_fil_liste, 'r', encoding="utf-8") as f:
            for file_name in f.read().splitlines():
                fil = Path(stop_file_path)
                if fil.is_file():
                    logger.info("Stop-fil fundet – afbryder fillæsning.")
                    return                
                if not file_name.strip():
                    continue
                yield load_file(file_name)
--- a/udpak_semistruktur/extract/traversal.py
+++ b/udpak_semistruktur/extract/traversal.py
@@ -0,0 +1,217 @@
 from typing import Any, Generator, Union, List
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def _extract_text_node(v: Any) -> Any:
    """
    Udtrækker ren tekstværdi fra et xmltodict-node hvis muligt.
    Har noden '#text' og ellers kun '@...'-nøgler, returneres v['#text'].
    Ellers returneres v uændret.
    """
    if isinstance(v, dict) and "#text" in v:
        other_keys = [k for k in v.keys() if k != "#text"]
        if all(k.startswith("@") for k in other_keys):
            return v["#text"]
    return v
 def _resolve_with_indices(obj: Any, path: str, sti_index: dict, base_path: str = "") -> Any:
    """
    Følger en dot-sti og bruger sti_index til at vælge elementer
    hver gang vi rammer en liste. base_path er den allerede-resolverede
    sti (brug den når du starter nede i en 'rod').
    Eksempler på sti_index:
      {"orders": 1, "orders.items": 0}
    """
    if path in (None, "", "."):
        return obj
    parts = [p for p in path.split(".") if p != ""]
    cur = obj
    acc = base_path.strip(".")  
    for key in parts:
        # Hvis vi står på en liste, vælg det aktuelle index for den akkumulerede sti
        if isinstance(cur, list):
            idx_key = acc
            idx = sti_index.get(idx_key, 0)
            try:
                cur = cur[idx]
            except (TypeError, IndexError):
                return None
        if key == "#text":
            if isinstance(cur, dict):
                cur = cur.get("#text")
                acc = f"{acc}.#text" if acc else "#text"
                continue
            else:
                return cur
        # Slå næste nøgle op i dict med prefix-fallback
        if isinstance(cur, dict):
            match = find_nøgle_med_prefix_fallback(cur, key)
            if match is None:
                return None
            cur = cur.get(match)
            acc = match if not acc else f"{acc}.{match}"
        else:
            return None
    # Hvis vi ender på en liste, vælg index én sidste gang
    if isinstance(cur, list):
        idx = sti_index.get(acc, 0)
        try:
            cur = cur[idx]
        except (TypeError, IndexError):
            return None
    return _extract_text_node(cur)
 def sti_findes(obj: Any, sti: str, sti_index: dict) -> bool:
    """
    Returnerer True hvis stien kan opløses relativt til obj.
    Bruges af 'hvis_findes'.
    """
    if not sti:
        return False
    kandidat = _resolve_with_indices(obj, sti, sti_index, base_path="")
    return kandidat is not None
 def matcher_hvis_findes(obj: Any, hvis_findes: Any, sti_index: dict) -> bool:
    """
    OR-logik:
    - hvis 'hvis_findes' ikke er angivet -> True
    - hvis listen er tom -> True
    - ellers True hvis mindst én sti findes
    """
    if not hvis_findes:
        return True
    if isinstance(hvis_findes, str):
        hvis_findes = [hvis_findes]
    return any(sti_findes(obj, sti, sti_index) for sti in hvis_findes)
 def find_nøgle_med_prefix_fallback(obj: dict, nøgle: str) -> str | None:
    """Slår en nøgle op i et dict med fallback til namespace-præfiks (fx 'cm:Navn')."""
    if nøgle in obj:
        return nøgle
    for key in obj:
        if ":" in key and key.split(":")[-1] == nøgle:
            return key
    return None
 def rekursiv_udpakning(obj, sti: Union[str, List[str]], base_path="", path_index=None):
    if sti in [None, "", [], "."]:
        yield obj, path_index or {}
        return
    # Ny: rod="*"  → iterér værdier i dict (og bevar nøglen i sti_index["__key"])
    if sti in ("*", ".*"):
        if isinstance(obj, dict):
            for k, v in obj.items():
                ny_index = (path_index or {}).copy()
                ny_index["__key"] = k  # så @key virker
                yield v, ny_index
        elif isinstance(obj, list):
            for i, v in enumerate(obj):
                ny_index = (path_index or {}).copy()
                ny_index[(base_path or "").rstrip(".")] = i
                yield v, ny_index
        else:
            # ikke-liste/dict → bare returnér objektet som er
            yield obj, path_index or {}
        return
    if isinstance(sti, str):
        sti_dele = sti.split(".")
    else:
        sti_dele = sti
    if not sti_dele:
        yield obj, path_index or {}
        return
    nøgle = sti_dele[0]
    resten = sti_dele[1:]
    # NYT: wildcard-sti-segment
    if nøgle == "*":
        if isinstance(obj, dict):
            for k, v in obj.items():
                ny_index = (path_index or {}).copy()
                ny_index["__key"] = k  # så @key virker
                # base_path + k + "." afspejler at vi "går ned" i dict'en
                yield from rekursiv_udpakning(v, resten, base_path + k + ".", ny_index)
        elif isinstance(obj, list):
            for idx, v in enumerate(obj):
                ny_index = (path_index or {}).copy()
                ny_index[base_path.rstrip(".")] = idx
                yield from rekursiv_udpakning(v, resten, base_path, ny_index)
        return
    if isinstance(obj, dict):
        matchende_nøgle = find_nøgle_med_prefix_fallback(obj, nøgle)
        if matchende_nøgle is None:
            return
        næste = obj.get(matchende_nøgle)
        ny_path_index = (path_index or {}).copy()
        ny_path_index[(base_path + matchende_nøgle).strip(".")] = 0
        if isinstance(næste, list):
            for idx, element in enumerate(næste):
                ny_path_index = (path_index or {}).copy()
                ny_path_index[base_path + matchende_nøgle] = idx
                yield from rekursiv_udpakning(
                    element, resten, base_path + matchende_nøgle + ".", ny_path_index
                )
        else:
            yield from rekursiv_udpakning(
                næste, resten, base_path + matchende_nøgle + ".", path_index
            )
    elif isinstance(obj, list):
        for idx, item in enumerate(obj):
            ny_path_index = (path_index or {}).copy()
            ny_path_index[base_path.rstrip(".")] = idx
            yield from rekursiv_udpakning(
                item, sti_dele, base_path, ny_path_index
            )
 def hent_objekt_fra_sti(root_obj: Any, sti: str, path_index: dict) -> Any:
    """Returnerer objektet ved den angivne dot-sti relativt til root_obj."""
    return _resolve_with_indices(root_obj, sti, path_index, base_path="")
 def hent_fra_objekt_med_prefix_fallback(obj: Any, nøgle: str) -> Any:
    """Slår nøgle op i obj med namespace-præfiks fallback og returnerer tekstnoden."""
    if not isinstance(obj, dict):
        return None
    # 1. Direkte opslag
    if nøgle in obj:
        return _extract_text_node(obj[nøgle])
    # 2. Hvis vi har 'CountryCode', så prøv fx 'c:CountryCode', 'cm:CountryCode'
    for key in obj.keys():
        if ":" in key and key.split(":")[-1] == nøgle:
            return _extract_text_node(obj[key])
    return None
 def hent_felt(obj: Any, sti: str) -> Any:
    """Følger en dot-sti i obj uden sti_index – bruges til simple opslag."""
    dele = sti.split('.')
    for del_navn in dele:
        if isinstance(obj, list):
            return [hent_felt(item, '.'.join(dele[dele.index(del_navn):])) for item in obj]
        elif isinstance(obj, dict):
            obj = hent_fra_objekt_med_prefix_fallback(obj, del_navn)
        else:
            return None
    return obj
--- a/udpak_semistruktur/load/db_writer.py
+++ b/udpak_semistruktur/load/db_writer.py
@@ -0,0 +1,99 @@
 import pyodbc
 from typing import Any
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def insert_rows_ase(
    conn: pyodbc.Connection,
    table_name: str,
    columns: list[str],
    rows: list[dict],
    batch_size: int = 1000,
    use_fast_executemany: bool = True,
 ) -> tuple[int, list[dict]]:
    """
    Indsætter rows i ASE-tabellen i batches.
    Returnerer (indsatte_antal, db_fejl_rows) hvor db_fejl_rows er liste af dicts + '_db_error'.
    - Bruger fast_executemany hvis ønsket.
    - Ved batch-fejl ruller den tilbage og prøver enkeltvis for at isolere fejlrækker.
    """
    if not rows:
        return 0, []
    # ASE tåler som regel ukvoterede kolonnenavne, men har I specialtegn/uppercases: brug "Col"
    col_list = ", ".join(columns)
    placeholders = ", ".join(["?"] * len(columns))
    sql = f"INSERT INTO {table_name} ({col_list}) VALUES ({placeholders})"
    logger.debug(f"INSERT til {table_name}: {len(rows)} rækker, batch_size={batch_size}")
    cur = conn.cursor()
    if use_fast_executemany:
        # I jeres tests gav det værdi—så sætter vi det
        cur.fast_executemany = True
    params = [[r.get(c) for c in columns] for r in rows]
    inserted = 0
    failed = []
    try:
        for i in range(0, len(params), batch_size):
            chunk = params[i:i+batch_size]
            try:
                cur.executemany(sql, chunk)
                inserted += len(chunk)
                conn.commit()
            except Exception:
                logger.warning(f"Batch fejlede ved offset {i} – prøver enkeltvis")
                # Batch fejlede – find de enkelte fejlrækker
                conn.rollback()
                for off, one in enumerate(chunk):
                    try:
                        cur.execute(sql, one)
                        inserted += 1
                    except Exception as e_row:
                        # Bevar original data og tilføj fejl
                        bad = dict(rows[i + off])
                        bad["_db_error"] = str(e_row)
                        failed.append(bad)
                conn.commit()
        return inserted, failed
    except Exception as e:
        logger.error(f"Kritisk fejl ved INSERT til {table_name}: {e}")
        # Noget stort gik galt – markér alle som fejlet
        conn.rollback()
        for r in rows:
            bad = dict(r)
            bad["_db_error"] = str(e)
            failed.append(bad)
        return inserted, failed
 def get_ase_connection_windows(
    user: str,
    password: str,
    host: str,
    port: str,
    database: str,
    autocommit: bool = False,
 ) -> pyodbc.Connection:
    """Opretter og returnerer en pyodbc-forbindelse til Sybase ASE på Windows."""
    conn_str = (
        f"DRIVER={{Adaptive Server Enterprise}};"
        f"SERVER={host};"
        f"PORT={port};"
        f"DATABASE={database};"
        f"UID={user};"
        f"PWD={password};"
    )
    conn = pyodbc.connect(conn_str, autocommit=autocommit)
    cur = conn.cursor()
    cur.execute("SET QUOTED_IDENTIFIER ON")
    cur.close()
    return conn
--- a/udpak_semistruktur/load/file_writer.py
+++ b/udpak_semistruktur/load/file_writer.py
@@ -0,0 +1,59 @@
 import os
 import csv
 import time
 from typing import Any, Callable
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def skriv_fil_med_retry(
    skrivefunktion: Callable,
    filsti: str,
    max_forsøg: int = 10,
    ventetider: list[int] = None,
 ) -> Any:
    """Forsøger at kalde skrivefunktion op til max_forsøg gange med stigende ventetid ved PermissionError."""
    sidste_exception = None
    if ventetider is None:
        ventetider = [2, 5, 10, 15, 20, 30, 40, 50, 60, 100]
    for i in range(max_forsøg):
        try:
            return skrivefunktion()
        except PermissionError as e:
            delay = ventetider[min(i, len(ventetider)-1)]
            logger.warning(f"Fejl ved skrivning til fil '{filsti}' (forsøg {i+1}/{max_forsøg}) (venter: {delay} sekunder): {e}")
            sidste_exception = e
            time.sleep(delay)
    raise sidste_exception
 def generer_filer_med_overskrifter(
    overskrifter: bool,
    output_file: str,
    columns: list,
    global_config: dict,
 ) -> None:
    """Opretter output-fil og skriver kolonneoverskrifter hvis konfigureret."""
    tilstand = global_config["skrivetilstand"]
    enc = global_config["encoding"]
    separator = global_config['separator']
    logger.debug(f"generer_filer_med_overskrifter kaldt: fil={output_file}, tilstand={tilstand}, enc={enc}")
    if tilstand.upper() == 'W':
        with open(output_file, 'w', encoding=enc) as out_fil:
            if overskrifter:
                out_fil.write(separator.join(col["navn"] if "navn" in col else f"Kolonne_{idx+1}" for idx, col in enumerate(columns)) + "\n")
    if tilstand.upper() == 'A':
        # TODO: out_fil er ikke åbnet i 'A'-tilstanden – denne gren virker ikke korrekt
        if os.path.exists(output_file):
            if os.path.getsize(output_file) == 0:
                if overskrifter:
                    out_fil.write(separator.join(col["navn"] if "navn" in col else f"Kolonne_{idx+1}" for idx, col in enumerate(columns)) + "\n")
--- a/udpak_semistruktur/transform/clean.py
+++ b/udpak_semistruktur/transform/clean.py
@@ -0,0 +1,145 @@
 from typing import Any
 from bs4 import BeautifulSoup
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def fjern_linjeskift(data: dict, file_config: dict, global_config: dict) -> dict:
    """Fjerner linjeskift fra kolonner markeret med fjern_linjeskift: true i YAML."""    
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    kolonner = file_config.get("kolonner", [])
    for kolonne in kolonner:
        if not kolonne.get("fjern_linjeskift", False):
            continue
        kolonnenavn = kolonne.get("navn")
        for række in data["rækker"]:
            værdi = række.get(kolonnenavn)
            if isinstance(værdi, str):
                værdi_ny = værdi.replace("\r\n", "").replace("\n", "").replace("\r", "")
            else:
                værdi_ny = værdi
            række[kolonnenavn] = værdi_ny
    return data
 def perform_strip(text: Any) -> Any:
    """Fjerner HTML/XML-tags fra en tekststreng via BeautifulSoup."""
    if not text or "<" not in text:  # Hurtigt tjek om der overhovedet er tags
        return text
    # Detekter om det er XML/XHTML eller almindelig HTML
    parser = "xml" if "<?xml" in text else "lxml"
    try:
        soup = BeautifulSoup(text, parser)
        # Vi bruger \n som separator for at sikre, at <br/> og blok-tags 
        # (h1, p) ikke mases sammen. strip=True fjerner whitespace i start/slut.
        return soup.get_text(separator="\n", strip=True)
    except Exception:
        # Hvis parseren fejler, returneres den rå tekst (sikkerhedsnet)
        return text
 def tag_strip(data: dict, file_config: dict, global_config: dict) -> dict:
    """Stripper HTML/XML-tags fra kolonner markeret med strip_tags: true i YAML."""
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    for kolonne in file_config.get("kolonner", []):
        navn = kolonne.get("navn")
        if not navn:
            continue
        strip_tags = kolonne.get("strip_tags", False)
        for række in data["rækker"]:
            v = række.get(navn)
            if v is None:
                continue
            if strip_tags:
                # Vi konverterer til string og stripper tags i ét hug
                række[navn] = perform_strip(str(v))
            else:
                # Hvis der ikke skal strippes tags, bevares værdien (som string)
                række[navn] = str(v)
    return data
 def upper_lower(data: dict, file_config: dict, global_config: dict) -> dict:
    """Konverterer kolonneværdier til upper- eller lowercase efter YAML-konfiguration."""
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    for kolonne in file_config.get("kolonner", []):
        navn = kolonne.get("navn")
        if not navn:
            continue
        ucase = kolonne.get("ucase", False)
        lcase = kolonne.get("lcase", False)
        if ucase and lcase:
            continue  # undgå konflikt
        for række in data["rækker"]:
            v = række.get(navn)
            if v is None:
                continue
            s = str(v)             
            if ucase:
                række[navn] = s.upper()
            elif lcase:
                række[navn] = s.lower()
    return data
 def rens(data: dict, file_config: dict, global_config: dict) -> dict:
    """Anvender regex- og tegnbaserede renseregler fra global_config på markerede kolonner."""
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    rens_regex = global_config.get("rens_intervaller_regex")
    rens_erstats = global_config.get("rens_intervaller_erstats", [])
    rens_chars = global_config.get("rens_all_chars", {})
    rens_regex_rules = global_config.get("rens_regex_rules", [])  
    # ingenting at gøre?
    if rens_regex is None and not rens_chars and not rens_regex_rules:
        return data
    kolonner = file_config.get("kolonner", [])
    for kolonne in kolonner:
        if not kolonne.get("rens", False):
            continue
        kolonnenavn = kolonne.get("navn")
        for række in data["rækker"]:
            værdi = række.get(kolonnenavn)
            if isinstance(værdi, str):
                tmp = værdi
                # 1) Frie regex-regler (kører først)
                for cre, repl in rens_regex_rules:
                    # brug match.expand for at understøtte \1 / \g<1> i YAML
                    tmp = cre.sub(lambda m, r=repl: m.expand(r), tmp)
                # 2) Intervaller (som før)
                if rens_regex:
                    def regex_erstat(match):
                        for group_name, val in match.groupdict().items():
                            if val:
                                index = int(group_name[1:])  # fx 'i0' → 0
                                return rens_erstats[index]
                        return match.group(0)
                    tmp = rens_regex.sub(regex_erstat, tmp)
                # 3) Enkelttegn (som før)
                for char, erstat in rens_chars.items():
                    tmp = tmp.replace(char, erstat)
            else:
                tmp = værdi
            række[kolonnenavn] = tmp
    return data
--- a/udpak_semistruktur/transform/convert.py
+++ b/udpak_semistruktur/transform/convert.py
@@ -0,0 +1,195 @@
 import re
 from datetime import datetime
 from decimal import Decimal, ROUND_HALF_UP
 from typing import Any, Optional
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def _parse_number(value: Any) -> Decimal:
    """
    Konverterer en talværdi til Decimal.
    Håndterer EU-format (punktum som tusindtalsseparator, komma som decimal)
    samt US-format og rene integers. Kaster ValueError ved ugyldigt format.
    """
    if isinstance(value, (int, float, Decimal)):
        return Decimal(str(value))
    s = str(value).strip()
    # Fjern valuta og ikke-tal (men bevar cifre, komma, punktum og minus)
    s = re.sub(r'[^\d,.\-]', '', s)
    # Håndter typiske EU-formater
    if ',' in s and '.' in s:
        # Antag '.' = tusind, ',' = decimal, fx "391.211,75" -> "391211.75"
        s = s.replace('.', '').replace(',', '.')
    elif ',' in s:
        # Kun komma => decimal komma, fx "391211,75" -> "391211.75"
        s = s.replace(',', '.')
    else:
        # Kun punktum eller rene cifre -> int/US-format
        pass
    # Tom streng eller bare "-" er ugyldig
    if s in ('', '-', '.'):
        raise ValueError(f"Ugyldigt talformat: {value!r}")
    return Decimal(s)
 def konverter(data: dict, file_config: dict, global_config: dict) -> dict:
    """
    Konverterer kolonneværdier i data til de typer der er angivet i file_config.
    Håndterer string, integer, float, decimal, boolean og date.
    Rækker med fejl samles i data['fejlede_rækker'] hvis fejl_fil er konfigureret,
    ellers kastes en exception.
    """    
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    fejl_fil = global_config.get("fejl_fil_ext", None)
    kolonner = file_config.get("kolonner", [])
    nye_rækker = []
    fejlede_rækker = []
    for række in data["rækker"]:
        ny_række = række.copy()
        fejl_i_række = False
        for kolonne in kolonner:
            field_type = kolonne.get("type", "string")
            string_max_len = kolonne.get("max_længde", None)
            string_truncate = kolonne.get("truncate", None)
            if field_type == "string" and not string_max_len and not string_truncate:
                continue
            kolonnenavn = kolonne.get("navn")
            value = ny_række.get(kolonnenavn)
            krav = kolonne.get("påkrævet", False)
            # Hvis værdien er None
            if value is None:
                if krav:
                    logger.warning(f"Påkrævet felt '{kolonnenavn}' mangler.")
                    if fejl_fil:
                        fejl_i_række = True
                        break
                    else:
                        raise ValueError(f"Påkrævet felt '{kolonnenavn}' mangler.")
                else:
                    continue  # spring konvertering over for denne kolonne
            try:
                if field_type in ["integer", "biginteger", "bigint"]:
                    tmp = int(value)
                elif field_type in ["float", "decimal"]:
                    dec = _parse_number(value)
                    decimal_places = kolonne.get("decimaler", 2)
                    q = Decimal(10) ** (-decimal_places)  # fx 2 -> Decimal('0.01')
                    dec = dec.quantize(q, rounding=ROUND_HALF_UP)
                    if field_type == "float":
                        tmp = f"{dec:.{decimal_places}f}"
                    else:
                        # "decimal" som streng bevaret med præcision
                        tmp = f"{dec:.{decimal_places}f}"
                elif field_type == "boolean":
                    tmp = str(value).lower() in ["true", "1", "ja"]
                elif field_type == "date":
                    tmp_value = str(value)  # altid str
                    if '[' in tmp_value and tmp_value.endswith(']'):
                        tmp_value = tmp_value[:tmp_value.index('[')]
                    dato_ind_raw = kolonne.get("dato_ind", global_config.get("dato_ind"))
                    dato_ud = kolonne.get("dato_ud", global_config.get("dato_ud"))
                    # Tillad både string og liste
                    if isinstance(dato_ind_raw, str):
                        dato_ind_liste = [dato_ind_raw]
                    elif isinstance(dato_ind_raw, list):
                        dato_ind_liste = dato_ind_raw
                    else:
                        raise ValueError(f"'dato_ind' skal være streng eller liste, men var: {type(dato_ind_raw)}")
                    tmp_dato = None
                    parse_errors = []
                    for dato_ind in dato_ind_liste:
                        try:
                            if "%f" in dato_ind:
                                if re.search(r'\.\d+', tmp_value):
                                    tmp_value_padded = re.sub(
                                        r'\.(\d{1,6})',
                                        lambda m: '.' + m.group(1).ljust(6, '0'),
                                        tmp_value
                                    )
                                else:
                                    dato_ind = dato_ind.replace(".%f", "")
                                    tmp_value_padded = tmp_value
                            else:
                                tmp_value_padded = tmp_value
                            # Fjern kolon i tidszonedelen: +03:00 → +0300, hvis %z bruges
                            if "%z" in dato_ind:
                                tmp_value_padded = re.sub(r'([+-]\d{2}):(\d{2})$', r'\1\2', tmp_value_padded)
                            tmp_dato = datetime.strptime(tmp_value_padded, dato_ind)
                            break  # succes!
                        except ValueError as e:
                            parse_errors.append(f" - Format: {dato_ind} -> {e}")
                    if tmp_dato is None:
                        fejlbesked = "\n".join(parse_errors)
                        raise ValueError(f"Kunne ikke parse dato '{tmp_value}' med nogen af formaterne:\n{fejlbesked}")
                    # Output-format
                    if dato_ud.upper().strip() == "SYBASE":
                        tmp = tmp_dato.strftime('%Y-%m-%d %H:%M:%S.%f')[:-3]
                    elif dato_ud.upper().strip() == "DATE":
                        tmp = tmp_dato.strftime('%Y-%m-%d')
                    elif dato_ud.upper().strip() == "INFORMATICA_US":
                        tmp = tmp_dato.strftime('%m/%d/%Y %H:%M:%S.%f')
                    else:
                        tmp = tmp_dato.strftime(dato_ud)
                elif field_type == "string":
                    value = str(value)
                    if string_max_len and len(value) > string_max_len:
                        tmp = value[:string_max_len - 3] + "..."
                    elif string_truncate and len(value) > string_truncate:
                        tmp = value[:string_truncate]
                    else:
                        tmp = value
                elif field_type in ["hash", "id", "file", "rod_variant"]:
                    tmp = value
                else:
                    raise ValueError(f"Ukendt datatype '{field_type}' for feltet '{kolonnenavn}'.")
                ny_række[kolonnenavn] = tmp
            except (ValueError, TypeError) as e:
                logger.error(f"[CONVERT]Fejl ved konvertering af felt '{kolonnenavn}' med værdi '{value}': {e}")
                if fejl_fil:
                    fejl_i_række = True
                    break  # Stop konvertering af denne række
                else:
                    raise e
        if fejl_i_række:
            fejlede_rækker.append(række)  # Tilføj original række
        else:
            nye_rækker.append(ny_række)
    # Overskriv med gyldige rækker
    data["rækker"] = nye_rækker
    if fejl_fil:
        data["fejlede_rækker"] = fejlede_rækker
    return data
--- a/udpak_semistruktur/transform/reshape.py
+++ b/udpak_semistruktur/transform/reshape.py
@@ -0,0 +1,190 @@
 from itertools import product
 from typing import Any
 from udpak_semistruktur.logger import hent_logger
 logger = hent_logger(__name__)
 def _opfylder_betingelse(værdi: Any, operator: str, sammenlign_værdi: str) -> bool:
    """Evaluerer om værdi opfylder betingelsen defineret af operator og sammenlign_værdi."""
    if værdi is None:
        return False 
    # Lidt spidsfindig. Men hvis tal sammenligning skal virke korrekt, så skal man bruge tal. - Ellers prøver vi med strenge.
    try:
        sammenlign = float(sammenlign_værdi)
        værdi = float(værdi)
    except (ValueError, TypeError):
        sammenlign = str(sammenlign_værdi)
        værdi = str(værdi)
    if operator == "=":
        return værdi == sammenlign
    elif operator in ("<>", "!="):
        return værdi != sammenlign
    elif operator == ">":
        return værdi > sammenlign
    elif operator == "<":
        return værdi < sammenlign
    elif operator == ">=":
        return værdi >= sammenlign
    elif operator == "<=":
        return værdi <= sammenlign
    return False    
 def flatten(data: dict, file_config: dict) -> dict:
    """Ekspanderer listede kolonner til separate rækker via kartesisk produkt."""
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    kolonner = file_config.get("kolonner")
    flatten_kolonner = [k for k in kolonner if k.get("flatten", False)]
    flatten_kolonnenavne = [k.get("navn") for k in flatten_kolonner]
    nye_rækker = []
    for række in data["rækker"]:
        # Saml værdier fra flatten-kolonner
        flatten_values = []
        for navn in flatten_kolonnenavne:
            værdi = række.get(navn)
            if isinstance(værdi, list):
                flatten_values.append(værdi)
            else:
                flatten_values.append([værdi])  # Gør til liste for at indgå i produkt
        # Alle kombinationer
        for kombi in product(*flatten_values):
            ny_række = {k: v for k, v in række.items() if k not in flatten_kolonnenavne}
            ny_række.update(dict(zip(flatten_kolonnenavne, kombi)))
            nye_rækker.append(ny_række)
    data["rækker"] = nye_rækker
    return data 
 def join(data: dict, file_config: dict) -> dict:
    """Samler listeværdier i kolonner til en enkelt streng med separator."""
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    kolonner = file_config["kolonner"]
    for kolonne in kolonner:
        join_kolonne = kolonne.get("join", False)
        if join_kolonne:
            separator = kolonne.get("join_separator", '|')
            for række in data['rækker']:
                værdi = række.get(kolonne['navn'])
                if isinstance(værdi, list):
                    tmp = separator.join(str(v) for v in værdi)
                else:
                    tmp = værdi
                række[kolonne['navn']] = tmp
    return data
 def where(data: dict, file_config: dict, global_config: dict) -> dict:
    """Filtrerer rækker baseret på where-betingelser defineret i YAML."""
    if not isinstance(data, dict) or "rækker" not in data:
       return data  
    kolonner = file_config.get("kolonner", [])
    for kolonne in kolonner:
        if not kolonne.get("where", None):
            continue
        condition_streng = kolonne.get("where")
        operators = ["<>", "!=", ">=", "<=", "=", ">", "<"]
        operator = None
        value = None
        for op in operators:
            if condition_streng.startswith(op):
                operator = op
                value = condition_streng[len(op):]
                break
        if operator is None:
            continue
        kolonnenavn = kolonne.get("navn")
        rækker = [r for r in data["rækker"] if _opfylder_betingelse(r.get(kolonnenavn), operator, value)]
        data["rækker"] = rækker
    return data
 def id_felt(data: dict, file_config: dict) -> dict:
    """Tildeler auto-incrementerende id-værdier til kolonner af type 'id'."""
    if not isinstance(data, dict) or "rækker" not in data:
        return data   
    kolonner = file_config.get("kolonner", [])
    for kolonne in kolonner:
        felt_type = kolonne.get("type", None)
        if felt_type == 'id':
            start = kolonne.get("startværdi", 1)
            forøgelse = kolonne.get("forøgelse", 1)
            navn = kolonne.get("navn")
            val = start
            for række in data['rækker']:
                række[navn] = val
                val += forøgelse
    return data
 def sammensat_noegle(data: dict, file_config: dict, global_config: dict) -> dict:
    """
    Bygger en sammensat nøgle ud fra andre kolonner i samme række.
    YAML på kolonnen:
      - type: sammensat_nøgle
      - felter: [colA, colB, ...]   (kolonnenavne)
      - separator: "|"             (default: "|")
      - allow_empty: false         (default: false)
        - false => hvis et felt mangler/er tomt => resultat None
        - true  => tomme felter bliver til "" og joines stadig
    """
    if not isinstance(data, dict) or "rækker" not in data:
        return data
    kolonner = file_config.get("kolonner", [])
    for kol in kolonner:
        if str(kol.get("type", "")).lower() != "sammensat_nøgle":
            continue
        target = kol.get("navn")
        felter = kol.get("felter") or kol.get("fields")
        if not target or not isinstance(felter, list) or len(felter) == 0:
            raise ValueError("sammensat_nøgle kræver 'navn' og 'felter: [..]' i YAML")
        sep = kol.get("separator", "|")
        allow_empty = bool(kol.get("allow_empty", False))
        for række in data["rækker"]:
            parts = []
            missing = False
            for f in felter:
                v = række.get(f)
                if v is None or v == "":
                    if allow_empty:
                        parts.append("")
                    else:
                        missing = True
                        break
                else:
                    parts.append(str(v))
            række[target] = None if missing else sep.join(parts)
    return data