videre

2026-04-03 00:49:35 +02:00
parent 18526f8b45
commit 60fb674c8d
5 changed files with 751 additions and 0 deletions
--- a/udpak_semistruktur.py
+++ b/udpak_semistruktur.py
@@ -0,0 +1,126 @@
+import argparse
+
+from udpak_semistruktur.config import valider_yaml
+from udpak_semistruktur.logger import opsaet_logging, hent_logger
+from udpak_semistruktur import ddl
+
+from udpak_semistruktur.extract.reader import læs_filer
+from udpak_semistruktur.extract.extractor import generer_datafil
+from udpak_semistruktur.transform.clean import rens, tag_strip, fjern_linjeskift, upper_lower, filename
+from udpak_semistruktur.transform.reshape import flatten, join, where, id_felt, sammensat_noegle
+from udpak_semistruktur.transform.convert import konverter
+from udpak_semistruktur.transform.hash import beregn_hash
+from udpak_semistruktur.load.file_writer import generer_filer_med_overskrifter, skriv_fil_med_retry
+from udpak_semistruktur.load.db_writer import get_ase_connection_windows, insert_rows_ase
+from udpak_semistruktur.db import læs_json_fil
+from udpak_semistruktur.utils import generer_filnavn
+
+logger = hent_logger(__name__)
+
+def _byg_argument_parser() -> argparse.ArgumentParser:
+    """Bygger og returnerer CLI argument-parseren."""
+
+    parser = argparse.ArgumentParser(
+        description="Udtræk og transformation af semistrukturerede data (JSON/XML)."
+    )
+    parser.add_argument("--config", required=True, help="Sti til YAML-konfigurationsfil")
+
+    # Tilføj DDL-flags via ddl-modulet
+    ddl.add_cli_args(parser)
+    return parser
+
+def _kør_udtræk(config: dict, global_config: dict) -> None:
+    """Kører den normale udtræks- og transformationspipeline."""
+
+    input_fil = global_config.get("input_fil")
+    input_fil_liste = global_config.get("input_fil_liste")
+
+    # Opret DB-forbindelse hvis der er tabel-output
+    har_tabel_output = any(
+        cfg.get("type") == "tabel"
+        for cfg in config.get("output_filer", [])
+    )
+    conn = None
+    if har_tabel_output:
+        bruger, password, env, host, port = læs_json_fil(global_config)
+        conn = get_ase_connection_windows(
+            bruger, password, host, port,
+            global_config["database"]
+        )
+
+    for record in læs_filer(global_config, input_fil, input_fil_liste):
+        for cfg in config.get("output_filer", []):
+            # 1) Udtræk
+            tmp_data = generer_datafil(record, cfg, global_config)
+
+            # 2) Transform-pipeline
+            tmp_data = join(tmp_data, cfg)
+            tmp_data = flatten(tmp_data, cfg)
+            tmp_data = rens(tmp_data, cfg, global_config)
+            tmp_data = tag_strip(tmp_data, cfg, global_config)
+            tmp_data = fjern_linjeskift(tmp_data, cfg, global_config)
+            tmp_data = where(tmp_data, cfg, global_config)
+            tmp_data = konverter(tmp_data, cfg, global_config)
+            tmp_data = upper_lower(tmp_data, cfg, global_config)
+            tmp_data = id_felt(tmp_data, cfg)
+            tmp_data = sammensat_noegle(tmp_data, cfg, global_config)
+            tmp_data = beregn_hash(tmp_data, cfg, global_config)
+            tmp_data = filename(tmp_data, cfg, global_config)
+
+            # 3) Load – afhænger af cfg["type"]
+            if cfg.get("type") == "fil":
+                fil_navn = generer_filnavn(cfg["fil_navn"], global_config)
+                output_sti = global_config["output_path"] + fil_navn
+
+                overskrifter = cfg.get("overskrifter", True)
+                generer_filer_med_overskrifter(overskrifter, output_sti, cfg["kolonner"], global_config)
+
+                separator = global_config["separator"]
+                encoding = global_config["encoding"]
+
+                # Bemærk: skriv() lukker over loop-variabler – kaldes straks af skriv_fil_med_retry
+                def skriv():
+                    with open(output_sti, "a", encoding=encoding) as f:
+                        for række in tmp_data["rækker"]:
+                            linje = separator.join(
+                                str(række.get(k["navn"], "")) for k in cfg["kolonner"]
+                            )
+                            f.write(linje + "\n")
+
+                skriv_fil_med_retry(skriv, output_sti)
+                logger.info(f"Fil: {output_sti} skrevet ({len(tmp_data['rækker'])} rækker)")
+
+            elif cfg.get("type") == "tabel":
+                kolonner = [k["navn"] for k in cfg["kolonner"]]
+                indsatte, fejlede = insert_rows_ase(conn, cfg["tabel_navn"], kolonner, tmp_data["rækker"])
+                logger.info(f"DB: {indsatte} rækker indsat i {cfg['tabel_navn']}")
+                if fejlede:
+                    logger.warning(f"DB: {len(fejlede)} rækker fejlede i {cfg['tabel_navn']}")
+
+    if conn is not None:
+        conn.close()
+        logger.debug("DB-forbindelse lukket.")
+
+def main():
+    """Hovedfunktion der eksekveres ved kørsel af scriptet."""
+    parser = _byg_argument_parser()
+    args = parser.parse_args()
+
+    # Valider og indlæs YAML-konfiguration
+    config = valider_yaml(args.config)
+    global_config = config["config"]
+
+    # Opsæt logging baseret på argumenter
+    opsaet_logging(
+        log_fil=global_config["logfil"],
+        niveau=global_config.get("log_niveau", "info"),
+    )
+
+    # Eksekver DDL-flowet
+    if ddl.is_enabled(args):
+        ddl.run_ddl_mode(args, config, global_config)
+    else:
+        _kør_udtræk(config, global_config)
+
+if __name__ == "__main__":
+    main()
--- a/udpak_semistruktur/ddl.py
+++ b/udpak_semistruktur/ddl.py
@@ -0,0 +1,387 @@
+"""
+ddl_tool_ase.py
+
+Sybase ASE helper for:
+- DDL generation (CREATE TABLE) for base + tmp tables
+- Flyt scripts (DELETE with JOIN placeholder + INSERT/SELECT)
+- Collecting combined sql files
+
+Design goals (as requested):
+- YAML may contain _tmp table names (because the extractor loads into _tmp)
+- DDL generation should produce BOTH:
+    - base table (without _tmp)
+    - tmp table (with _tmp)
+  when YAML ends with _tmp
+- If YAML does NOT end with _tmp:
+    - always generate base DDL
+    - generate tmp DDL only when --tmp is given
+- Flyt scripts always move tmp -> base
+- Sybase ASE DELETE must NOT use table aliases
+- No join_cols intelligence; only placeholders (ON 1=1 + commented AND lines)
+"""
+
+from __future__ import annotations
+import os
+
+from copy import deepcopy
+from typing import Dict, List, Tuple, Any
+
+from udpak_semistruktur.utils import generer_filnavn
+from udpak_semistruktur.logger import hent_logger
+
+logger = hent_logger(__name__)
+
+# ------------------------------------------------------------
+# CLI wiring
+# ------------------------------------------------------------
+
+def add_cli_args(parser) -> None:
+    """
+    Add CLI flags used by DDL mode to your argparse parser.
+    """
+    parser.add_argument("--DDL", action="store_true", help="Generate DDL (CREATE TABLE) files")
+    parser.add_argument("--tmp", action="store_true", help="Also generate _tmp table variants when YAML table is base")
+    parser.add_argument("--flyt", action="store_true", help="Also generate delete+insert (move) scripts for Sybase ASE")
+    parser.add_argument("--flyt_kort", action="store_true", help="Generere delete+insert statements, men i kort version.")
+
+
+def is_enabled(args) -> bool:
+    return bool(getattr(args, "DDL", False))
+
+
+# ------------------------------------------------------------
+# Name helpers
+# ------------------------------------------------------------
+
+def _map_yaml_type_to_ase(col: dict, dato_ud_global = "%Y-%m-%d") -> str:
+    """
+    Map YAML kolonnefelt til Sybase ASE SQL-type.
+    YAML keys vi kigger efter:
+      - type: string|integer|float|decimal|boolean|date|hash|id|file
+      - max_længde / length: int (til varchar)
+      - precision: int (til decimal)
+      - decimaler: int (scale til decimal)
+    Fallback for ukendt/uden type: VARCHAR(255)
+    """
+    t = str(col.get("type", "string")).lower()
+    length = col.get("max_længde", col.get("length", col.get("truncate")))
+    precision = col.get("precision", 18)
+    scale = col.get("decimaler", 2)
+    dato_fmt = col.get("dato_ud", dato_ud_global)
+
+    if t in ("string", "hash", "id", "file"):
+        n = int(length) if length else 50
+        return f"VARCHAR({n})"
+    if t in ("integer", "bigint"):
+        return "INT"
+    if t in ("float", "decimal"):
+        return f"DECIMAL({precision},{scale})"
+    if t == "boolean":
+        # BIT findes, men TINYINT er ofte mere kompatibelt i ASE
+        return "TINYINT"
+    if t == "date":
+        time_codes = ['%H', '%M', '%S', '%I', '%p', '%f']
+        if (any(code in dato_fmt for code in time_codes)) or (dato_fmt.upper() == 'SYBASE'):
+            return "DATETIME"
+        return "DATE"
+
+    # default fallback
+    return "VARCHAR(50)"
+
+
+def split_base_tmp(table_name: str) -> Tuple[str, str]:
+    """
+    Returns (base_table, tmp_table).
+
+    If table_name ends with _tmp:
+      base_table = table_name without _tmp
+      tmp_table  = table_name (as-is)
+    Else:
+      base_table = table_name
+      tmp_table  = table_name + _tmp
+    """
+    if table_name.lower().endswith("_tmp"):
+        return table_name[:-4], table_name
+    return table_name, f"{table_name}_tmp"
+
+
+def _safe_name(name: str) -> str:
+    return name.replace(".", "_")
+
+
+def _default_ddl_filename(table_name: str) -> str:
+    return f"{_safe_name(table_name)}_create.sql"
+
+
+def _default_delete_filename(base_table: str) -> str:
+    return f"{_safe_name(base_table)}_delete.sql"
+
+
+def _default_flyt_filename(base_table: str) -> str:
+    return f"{_safe_name(base_table)}_flyt.sql"
+
+def _skriv_flyt_scripts(
+    tabel: str,
+    base_tabel: str,
+    tmp_tabel: str,
+    file_conf: dict,
+    outdir: str,
+    insert_func: callable,
+    samlet_flyt_indhold: list,
+) -> None:
+    """Genererer og skriver delete- og flyt-scripts for én tabel."""
+    kolonner = [kol["navn"] for kol in file_conf.get("kolonner", [])]
+    delete_sql = generate_delete_join_sql(tabel, kolonner)
+    flyt_sql = insert_func(tabel, kolonner)
+
+    delete_path = os.path.join(outdir, _default_delete_filename(base_tabel))
+    flyt_path = os.path.join(outdir, _default_flyt_filename(base_tabel))
+
+    with open(delete_path, "w", encoding="utf-8") as f:
+        f.write(delete_sql)
+    with open(flyt_path, "w", encoding="utf-8") as f:
+        f.write(flyt_sql)
+
+    samlet_flyt_indhold.append(f"-- DELETE: {base_tabel} (match mod {tmp_tabel})\n{delete_sql}\n")
+    samlet_flyt_indhold.append(f"-- FLYT: {tmp_tabel} -> {base_tabel}\n{flyt_sql}\n")
+
+    logger.info(f"[FLYT] Skrev {delete_path}")
+    logger.info(f"[FLYT] Skrev {flyt_path}")
+
+
+# ------------------------------------------------------------
+# SQL generators (Sybase ASE)
+# ------------------------------------------------------------
+
+def generate_create_table_sql(file_config: dict, global_config: dict) -> str:
+    """
+    Genererer CREATE TABLE DDL for én output-fil-konfiguration.
+    Kræver at file_config['tabel_navn'] er sat.
+    - Kolonnenavn = kol["navn"]
+    - Type = YAML 'type' -> ASE type (fallback VARCHAR(255))
+    - NULL/NOT NULL = 'påkrævet' (True => NOT NULL)
+    - Optional 'primary_key': true (på en eller flere kolonner) -> PRIMARY KEY
+    Returnerer en streng med DROP-IF-EXISTS + CREATE TABLE.
+    """
+    table = file_config.get("tabel_navn")
+    if not table:
+        raise ValueError("Kan ikke generere DDL: 'tabel_navn' mangler i output_filer-blok.")
+
+    cols = file_config.get("kolonner", [])
+    if not cols:
+        raise ValueError(f"Kan ikke generere DDL for {table}: 'kolonner' er tom.")
+
+    # Byg kolonne-linjer
+    col_lines = []
+    pk_cols = []
+    for col in cols:
+        name = col["navn"]
+        sql_type = _map_yaml_type_to_ase(col)
+        not_null = "NOT NULL" if col.get("påkrævet") else "NULL"
+        col_lines.append(f'    "{name}" {sql_type} {not_null}')
+        if col.get("primary_key"):
+            pk_cols.append(name)
+
+    # PRIMARY KEY (hvis angivet)
+    pk_line = ""
+    if pk_cols:
+        cols_list = ", ".join(f'"{c}"' for c in pk_cols)
+        pk_line = f",\n    PRIMARY KEY ({cols_list})"
+
+    cols_block = ",\n".join(col_lines) + pk_line
+
+    # DROP IF EXISTS til ASE (sysobjects)
+    # (Tilpas evt. schema-adskillelse; her antager vi at table kan være dbo.MinTabel)
+    schema_qualified = table
+    table_only = table.split(".")[-1]
+
+    drop_part = (
+        f"IF EXISTS (SELECT 1 FROM sysobjects WHERE name = '{table_only}' AND type = 'U')\n"
+        f"BEGIN\n"
+        f"    DROP TABLE {schema_qualified}\n"
+        f"END\nGO\n\n"
+    )
+
+    create_part = (
+        f"CREATE TABLE {schema_qualified} (\n"
+        f"{cols_block}\n"
+        f");\nGO\n"
+    )
+
+    return drop_part + create_part
+
+
+def generate_delete_join_sql(table_name_from_yaml: str, columns: List[str]) -> str:
+    """
+    Sybase ASE-compatible DELETE with JOIN placeholder.
+
+    IMPORTANT: No aliases in DELETE in Sybase ASE.
+
+    Output:
+        DELETE FROM base
+        FROM base
+        JOIN tmp
+          ON 1 = 1
+          -- AND base.col = tmp.col
+        
+    """
+    base_table, tmp_table = split_base_tmp(table_name_from_yaml)
+
+    lines: List[str] = []
+    lines.append(f"DELETE FROM {base_table}")
+    lines.append(f"FROM {base_table}")
+    lines.append(f"JOIN {tmp_table}")
+    lines.append("  ON 1 = 1")
+    for col in columns:
+        lines.append(f"  -- AND {base_table}.{col} = {tmp_table}.{col}")
+    lines.append(" ")
+    return "\n".join(lines)
+
+
+def generate_insert_move_sql(table_name_from_yaml: str, columns: List[str]) -> str:
+    """
+    INSERT INTO base SELECT FROM tmp (all columns, explicit list).
+    """
+    base_table, tmp_table = split_base_tmp(table_name_from_yaml)
+
+    cols_block = ",\n    ".join(columns)
+
+    lines: List[str] = []
+    lines.append(f"INSERT INTO {base_table} (")
+    lines.append(f"    {cols_block}")
+    lines.append(")")
+    lines.append("SELECT")
+    lines.append(f"    {cols_block}")
+    lines.append(f"FROM {tmp_table}")
+    lines.append(" ")
+    return "\n".join(lines)
+
+def generate_insert_move_sql_short(table_name_from_yaml: str, columns: List[str]) -> str:
+    """
+    INSERT INTO base SELECT FROM tmp (*).
+    """
+    base_table, tmp_table = split_base_tmp(table_name_from_yaml)
+
+    cols_block = ",\n    ".join(columns)
+
+    lines: List[str] = []
+    lines.append(f"INSERT INTO {base_table} ")
+    lines.append("SELECT * ")
+    lines.append(f"FROM {tmp_table}")
+    lines.append(" ")
+    return "\n".join(lines)
+
+# ------------------------------------------------------------
+# DDL mode runner
+# ------------------------------------------------------------
+
+def run_ddl_mode(args, config: Dict[str, Any], global_config: Dict[str, Any]) -> None:
+    """
+    Executes the full DDL-only flow and writes files.
+    """
+
+    outdir = os.path.join(global_config["output_path"], "sql")
+    os.makedirs(outdir, exist_ok=True)
+
+    antal = 0
+    samlet_sql_indhold: List[str] = []
+    samlet_flyt_indhold: List[str] = []
+
+    output_filer = config.get("output_filer", [])
+    for file_conf in output_filer:
+        tabel = file_conf.get("tabel_navn")
+        if not tabel:
+            continue
+
+        try:
+            base_tabel, tmp_tabel = split_base_tmp(tabel)
+            yaml_is_tmp = tabel.lower().endswith("_tmp")
+
+            # ---------------------------------------------------------
+            # 1) Base DDL (always)
+            # ---------------------------------------------------------
+            base_conf = deepcopy(file_conf)
+            base_conf["tabel_navn"] = base_tabel
+
+            ddl_sql_base = generate_create_table_sql(base_conf, global_config)
+            samlet_sql_indhold.append(f"-- Tabel: {base_tabel}\n{ddl_sql_base}\n")
+
+            # If YAML already is base, respect ddl_fil_navn if present.
+            # If YAML is tmp (base differs), don't reuse ddl_fil_navn blindly.
+            if (not yaml_is_tmp) and file_conf.get("ddl_fil_navn"):
+                ddl_base_name = file_conf["ddl_fil_navn"]
+            else:
+                ddl_base_name = _default_ddl_filename(base_tabel)
+
+            ddl_base_name = generer_filnavn(ddl_base_name, global_config)
+            ddl_base_path = os.path.join(outdir, ddl_base_name)
+
+            with open(ddl_base_path, "w", encoding="utf-8") as f:
+                f.write(ddl_sql_base)
+
+            logger.info(f"[DDL] Skrev {ddl_base_path}")
+            antal += 1
+
+            # ---------------------------------------------------------
+            # 2) TMP DDL
+            #    - If YAML is _tmp: ALWAYS generate tmp too
+            #    - Else: only when --tmp is set
+            # ---------------------------------------------------------
+            skal_lave_tmp = yaml_is_tmp or bool(getattr(args, "tmp", False))
+            if skal_lave_tmp:
+                tmp_conf = deepcopy(file_conf)
+                tmp_conf["tabel_navn"] = tmp_tabel
+
+                ddl_sql_tmp = generate_create_table_sql(tmp_conf, global_config)
+                samlet_sql_indhold.append(f"-- Tabel: {tmp_tabel}\n{ddl_sql_tmp}\n")
+
+                ddl_tmp_name = _default_ddl_filename(tmp_tabel)
+                ddl_tmp_name = generer_filnavn(ddl_tmp_name, global_config)
+                ddl_tmp_path = os.path.join(outdir, ddl_tmp_name)
+
+                with open(ddl_tmp_path, "w", encoding="utf-8") as f_tmp:
+                    f_tmp.write(ddl_sql_tmp)
+
+                logger.info(f"[DDL] Skrev {ddl_tmp_path}")
+                antal += 1
+
+            # ---------------------------------------------------------
+            # 3) Flyt scripts (Sybase ASE) if --flyt
+            #    Always based on YAML table name, which determines base/tmp
+            # ---------------------------------------------------------
+            if getattr(args, "flyt", False):
+                _skriv_flyt_scripts(tabel, base_tabel, tmp_tabel, file_conf, outdir,
+                    generate_insert_move_sql, samlet_flyt_indhold)
+
+            # ---------------------------------------------------------
+            # 4) Flyt scripts (Sybase ASE) if --flyt_kort
+            #    Always based on YAML table name, which determines base/tmp
+            # ---------------------------------------------------------
+            if getattr(args, "flyt_kort", False):
+                _skriv_flyt_scripts(tabel, base_tabel, tmp_tabel, file_conf, outdir,
+                                    generate_insert_move_sql_short, samlet_flyt_indhold)
+
+
+        except Exception as e:
+            logger.error(f"[DDL] Fejl for {tabel}: {e}")
+            raise
+
+    # ---------------------------------------------------------
+    # Combined files
+    # ---------------------------------------------------------
+    if antal > 0:
+        samlet_sti = os.path.join(outdir, "sql_samlet.sql")
+        with open(samlet_sti, "w", encoding="utf-8") as f_alt:
+            f_alt.write("\n".join(samlet_sql_indhold))
+        logger.info(f"[DDL] Skrev samlet fil: {samlet_sti}")
+
+        if (getattr(args, "flyt", False) or getattr(args, "flyt_kort", False)) and len(samlet_flyt_indhold) > 0:
+            samlet_flyt_sti = os.path.join(outdir, "sql_flyt_samlet.sql")
+            with open(samlet_flyt_sti, "w", encoding="utf-8") as f_flyt_alt:
+                f_flyt_alt.write("\n".join(samlet_flyt_indhold))
+            logger.info(f"[FLYT] Skrev samlet fil: {samlet_flyt_sti}")
+
+        logger.info(f"[DDL] FÆRDIG: {antal} fil(er) genereret.")
+    else:
+        logger.info("[DDL] Ingen DDL genereret.")
+
--- a/udpak_semistruktur/extract/extractor.py
+++ b/udpak_semistruktur/extract/extractor.py
@@ -0,0 +1,171 @@
+import re
+from typing import Any, Optional
+
+from udpak_semistruktur.logger import hent_logger
+from udpak_semistruktur.utils import er_tom, evaluer_værdi_token, EMPTY_SENTINELS
+from udpak_semistruktur.extract.traversal import (
+    rekursiv_udpakning,
+    hent_objekt_fra_sti,
+    _resolve_with_indices,
+    matcher_hvis_findes,
+)
+
+logger = hent_logger(__name__)
+
+def udvid_rod_alternativer(rod: str) -> list[dict]:
+    """Udvider en rod-streng med [a,b,c]-alternativ-syntaks til en liste af rod/variant-dicts."""
+
+    if not isinstance(rod, str) or "[" not in rod:
+        return [{"rod": rod, "variant": None}]
+
+    m = re.fullmatch(r"(.*)\[([^\[\]]+)\](.*)", rod)
+    if not m:
+        return [{"rod": rod, "variant": None}]
+
+    prefix = m.group(1)
+    choices = [x.strip() for x in m.group(2).split(",") if x.strip()]
+    suffix = m.group(3)
+    return [
+        {
+            "rod": f"{prefix}{choice}{suffix}",
+            "variant": choice
+        }
+        for choice in choices
+    ]
+
+def hent_fra_spec(spec, default_el, json_data, sti_index, global_config) -> tuple[Any, bool]:
+    """Henter en værdi fra json_data baseret på en spec-definition. Returnerer (værdi, mangler)."""
+
+    if spec is None:
+        return None, False
+
+    if "værdi" in spec and spec.get("værdi") is not None:
+        return evaluer_værdi_token(spec["værdi"], global_config), False
+
+    felt = spec.get("felt")
+    if felt == "@key":
+        return (sti_index or {}).get("__key"), False
+
+    rod = spec.get("rod")
+
+    if felt is None:
+        return None, True
+
+    if felt == ".":
+        return default_el, False
+
+    # Vælg rod/base
+    if rod:
+        parent_obj = hent_objekt_fra_sti(json_data, rod, sti_index)
+        if not isinstance(parent_obj, (dict, list)):
+            return None, True
+        kandidat = _resolve_with_indices(parent_obj, felt, sti_index, base_path=rod)
+    else:
+        if not isinstance(default_el, (dict, list)):
+            return None, True
+        # base_path er ukendt her; brug tom – sti_index-nøgler vil stadig ramme korrekt,
+        # når felt-stien selv rammer lister (acc akkumuleres fra feltet).
+        kandidat = _resolve_with_indices(default_el, felt, sti_index, base_path="")
+
+    missing = kandidat is None and not isinstance(default_el, list)
+    return kandidat, missing
+
+def hent_kolonne_værdi_med_fallback(kol: dict, el: Any, json_data: Any, sti_index: dict, global_config: dict) -> Any:
+    """Henter kolonneværdi med støtte for missing_fallback og tom_fallback."""
+
+    kolnavn = kol.get("navn")
+    # 1) Primær kilde
+    if kol.get("felt") is None:
+        raw_value = kol.get("værdi", None)
+        værdi = evaluer_værdi_token(raw_value, global_config) if raw_value is not None else None
+        missing = raw_value is None
+    else:
+        primær_spec = {"felt": kol["felt"]}
+        if kol.get("rod"):
+            primær_spec["rod"] = kol["rod"]
+        værdi, missing = hent_fra_spec(primær_spec, el, json_data, sti_index, global_config)
+
+    # 2) Hvis missing -> prøv missing_fallback
+    if missing:
+        mf = kol.get("missing_fallback")
+        if isinstance(mf, dict):
+            v2, _ = hent_fra_spec(mf, el, json_data, sti_index, global_config)
+            if not er_tom(v2):
+                logger.debug(f"[UDTRÆK][FALLBACK][missing] kolonne={kolnavn} brugte missing_fallback={mf}")
+                return v2
+
+    # 3) Hvis tom -> prøv tom_fallback
+    if er_tom(værdi):
+        tf = kol.get("tom_fallback")
+        if isinstance(tf, dict):
+            v3, _ = hent_fra_spec(tf, el, json_data, sti_index, global_config)
+            if not er_tom(v3):
+                logger.debug(f"[UDTRÆK][FALLBACK][tom] kolonne={kolnavn} brugte tom_fallback={tf}")
+                return v3
+
+    return værdi
+
+def generer_datafil(json_data: Any, yaml_config: dict, global_config: dict) -> dict:
+    """
+    Udtrækker rækker fra json_data baseret på yaml_config.
+    Returnerer dict med 'header' og 'rækker'.
+    """
+    output_filer = {}
+    rod_sti = yaml_config["rod"]
+    kolonner = yaml_config["kolonner"]
+
+    hvis_findes = yaml_config.get("hvis_findes")
+
+    # Særligt robust for dict-af-dicts ved rod="*"
+    if rod_sti in ("*", ".*") and isinstance(json_data, dict):
+        # Gem nøglen i sti_index["__key"] så @key kan bruges
+        objekter = [(v, {"__key": k}) for k, v in json_data.items()]
+    else:
+        objekter = []
+        for rv in udvid_rod_alternativer(rod_sti):
+            for element, sti_index in rekursiv_udpakning(json_data, rv["rod"]):
+                ny_sti_index = dict(sti_index or {})
+                if rv.get("variant") is not None:
+                    ny_sti_index["__rod_variant"] = rv["variant"]
+                ny_sti_index["__rod_path"] = rv["rod"]
+                objekter.append((element, ny_sti_index))  
+
+    rækker = []
+    header = [k["navn"] for k in kolonner]
+
+    for element, sti_index in objekter:
+        if element in EMPTY_SENTINELS:
+            continue
+
+        elementer = element if isinstance(element, list) else [element]
+
+        for el in elementer:
+            if el in EMPTY_SENTINELS:
+                continue
+
+            if hvis_findes and not matcher_hvis_findes(el, hvis_findes, sti_index):
+                logger.debug(f"[UDTRÆK][hvis_findes] springer over record; ingen af stierne findes: {hvis_findes}")
+                continue
+
+            base_række = {}
+
+            for kol in kolonner:
+                navn = kol.get("navn")
+                ktype = kol.get("type")
+
+                if ktype == "rod_variant":
+                    base_række[navn] = (sti_index or {}).get("__rod_variant")
+                elif ktype == "rod_path":
+                    base_række[navn] = (sti_index or {}).get("__rod_path")
+                elif kol.get("felt") == ".":
+                    base_række[navn] = el
+                else:
+                    base_række[navn] = hent_kolonne_værdi_med_fallback(
+                        kol, el, json_data, sti_index, global_config
+                    )
+
+            rækker.append(base_række)
+
+    output_filer['header'] = header
+    output_filer['rækker'] = rækker
+    return output_filer
--- a/udpak_semistruktur/transform/clean.py
+++ b/udpak_semistruktur/transform/clean.py
@@ -143,3 +143,16 @@ def rens(data: dict, file_config: dict, global_config: dict) -> dict:
            række[kolonnenavn] = tmp

    return data
+
+def filename(data: dict, file_config: dict, global_config: dict) -> dict:
+    """Sætter kolonner af type 'file' til det aktuelle filnavn fra global_config."""
+    
+    kolonner = file_config.get("kolonner", [])
+    for kolonne in kolonner:
+        felt_type = kolonne.get("type", None)
+
+        if felt_type == "file":
+            for række in data["rækker"]:
+                række[kolonne["navn"]] = global_config["current_file"]
+
+    return data  
--- a/udpak_semistruktur/transform/hash.py
+++ b/udpak_semistruktur/transform/hash.py
@@ -0,0 +1,54 @@
+import hashlib
+import json
+
+from udpak_semistruktur.logger import hent_logger
+
+logger = hent_logger(__name__)
+
+def beregn_hash(data: dict, file_config: dict, global_config: dict) -> dict:
+    """
+    Beregner en hash-værdi for hash-kolonner baseret på de øvrige kolonners værdier.
+    Algoritme, separator og ekskluderede kolonner styres fra YAML.
+    """
+
+    hash_kolonner = []
+
+    kolonner = file_config.get("kolonner", [])
+    for kolonne in kolonner:
+        felt_type = kolonne.get("type", None)
+
+        if felt_type == "hash":
+            algoritme = kolonne.get("hash_algoritme", "sha256")
+            separator = kolonne.get("separator", "|")
+            exclude = kolonne.get("hash_exclude",[]) 
+
+            valid_algorithms = hashlib.algorithms_guaranteed
+
+            if algoritme not in valid_algorithms:
+                raise ValueError(f"Forkert HASH-algoritme: '{algoritme}'. Gyldige værdier: {', '.join(valid_algorithms)}")
+
+            for kol in kolonner:
+                json_felt = kol.get("navn", None)
+                if json_felt not in exclude:
+                    felt_type = kol.get("type", None)
+                    if felt_type not in ["hash", "id"]:
+                        hash_kolonner.append(kol["navn"])
+            
+            for række in data["rækker"]:
+                værdier = []
+                for navn in hash_kolonner:
+                    værdi = række.get(navn)
+                    if isinstance(værdi, (dict, list)):
+                        værdi_str = json.dumps(værdi, sort_keys=True)
+                    else:
+                        værdi_str = str(værdi)
+
+                    værdier.append(værdi_str)
+
+                samlet_streng = separator.join(værdier).encode("utf-8")
+
+                hash_func = getattr(hashlib, algoritme.lower())
+
+                række[kolonne["navn"]] = hash_func(samlet_streng).hexdigest()
+
+    return data