Zpracování dat - high level vycuc ke zkoušce

Rozšířený studijní přehled z PDF podkladů a z projektu EnerSight Home Analytics. Cíl: pochopit hlavní pojmy, zkratky, rozdíly mezi technologiemi a umět je vysvětlit u zkoušky vlastními slovy.

Důraz: principy a význam zkratek Formát: stručné definice + body
Jak o tom mluvit u zkoušky: propojit typ dat, workload, architekturu, kvalitu a governance a prezentaci výsledku. U většiny témat je důležité říct nejen co to je, ale i kdy se to hodí a jaký je trade-off.

1. Zkratky a základní slovník

Nejdůležitější zkratky

  • DIKW = Data, Information, Knowledge, Wisdom. Přechod od surových dat k rozhodnutí.
  • KPI = Key Performance Indicator. Klíčová metrika úspěchu.
  • SLA = Service Level Agreement. Dohoda nebo cíl na úroveň služby, třeba včasnost dat.
  • ETL = Extract, Transform, Load. Data vytáhnu, upravím a nahraju.
  • ELT = Extract, Load, Transform. Nejdřív nahrát, pak transformovat v cílové platformě.
  • EDA = Exploratory Data Analysis. Průzkumná analýza dat.

Databáze a big data

  • OLTP = Online Transaction Processing. Transakční provoz.
  • OLAP = Online Analytical Processing. Analytické dotazy a agregace.
  • HTAP = Hybrid Transactional/Analytical Processing. Snaha mít OLTP i OLAP nad stejnými daty.
  • HPC = High-Performance Computing. Vysoce výkonné počítání pro náročné výpočty.
  • HDFS = Hadoop Distributed File System. Distribuovaný souborový systém Hadoopu.
  • YARN = Yet Another Resource Negotiator. Správa zdrojů v Hadoop ekosystému.

Prakticky: pokud u zkoušky zazní zkratka, je dobré říct její plný název, jednu větu co znamená a jednu větu kdy se používá. Tím obvykle ukážeš, že rozumíš principu a nepapouškuješ jen termín.

2. Základy dat a analytiky

Data jsou surová fakta, informace jsou data v kontextu, znalost je pochopení vztahů a moudrost je správné rozhodnutí. Tohle je DIKW pyramida a dává smysl skoro pro celý předmět: cílem není jen data uložit, ale převést je do podoby, podle které lze rozhodovat.

Co je důležité si pamatovat

  • Data jsou aktivum, jen pokud mají kvalitu, kontext a jsou použitelná pro rozhodování.
  • Životní cyklus dat: vznik -> sběr -> uložení -> zpracování -> sdílení -> archivace / smazání.
  • Kvalita dat: přesnost, úplnost, konzistence, včasnost, validita. Nekvalitní data = špatné závěry.
  • Data as a product: data nemají být vedlejší odpad systému, ale spravovaný produkt s vlastníky, SLA a dokumentací.
  • Data mesh: odpovědnost za data v doménách, ale při zachování společných standardů.
  • Anti-patterny: shadow IT, excelová sila, nejasné vlastnictví dat, KPI bez kontextu.

Jak to vysvětlit vlastními slovy

  • Životní cyklus dat je důležitý proto, že v každé fázi řeším něco jiného: při vzniku validitu, při uložení retenci a bezpečnost, při sdílení licenci a přístupy.
  • KPI nemá být jen číslo v dashboardu; musí být navázané na cíl organizace a interpretovatelné v čase.
  • Evidence-based rozhodování znamená rozhodovat podle dat a metrik, ne podle dojmu.
  • Data product thinking tlačí na to, aby data měla zákazníka, dokumentaci, garance kvality a jasný přínos.

3. Databáze a zpracování

Tahle část je hlavně o tom, že neexistuje jedna nejlepší databáze nebo jeden nejlepší způsob zpracování. Volba vždy závisí na typu dat, typu dotazů, požadavku na rychlost a na tom, jestli řeším transakce, analytiku nebo obojí.

Typy workloadu

  • OLTP: hodně krátkých transakcí, rychlý zápis, vysoká konzistence. Typicky objednávky, banka, e-shop.
  • OLAP: agregace a analýza nad velkými objemy dat, důležitá propustnost čtení. Typicky reporting a BI.
  • HTAP: snaha spojit obojí nad stejnými daty, ale je to architektonicky náročné a ne vždy výhodné.

Mentální model

  • Tabulka stačí na malé úlohy a rychlé experimenty.
  • Skript dává automatizaci, verziovatelnost a opakovatelnost.
  • DB řeší perzistenci, dotazy, více uživatelů, bezpečnost a výkon.
  • ETL/ELT + orchestrace řeší pipeline, závislosti a provoz v čase.

Hlavní pojmy

  • Relační DB se hodí pro strukturovaná data a SQL; dokumentové DB pro flexibilnější JSON podobná data; grafové DB pro vztahy; vektorové DB pro vyhledávání podle podobnosti, typicky v AI.
  • Row-store ukládá data po řádcích, takže je vhodný pro transakce; column-store po sloupcích, takže je vhodný pro analytiku a agregace.
  • B-tree funguje dobře pro obecné indexy a range dotazy; LSM-tree pro vysokou zápisovou zátěž a append-heavy workloady.
  • ACID znamená Atomicity, Consistency, Isolation, Durability; tedy důraz na korektní transakce. BASE znamená spíše dostupnost a eventual consistency v distribuovaném prostředí.
  • Partitioning, sharding a replikace řeší škálování a dostupnost, ale přinášejí trade-offy v konzistenci, latenci a správě.
  • ETL = extrahovat, transformovat, nahrát; ELT = nahrát dřív a transformovat až uvnitř výkonné cílové platformy.
  • Orchestrace řídí pořadí a závislosti jobů, typicky pomocí DAG, tedy orientovaného acyklického grafu.
  • Streaming se hodí tam, kde data přicházejí jako události a záleží na čerstvosti, ne až na noční dávce.

Typická zkoušková pointa

U databází je klíčové ukázat, že rozumíš trade-offům. Například vysoká konzistence, nízká latence, horizontální škálování a jednoduchá správa nejdou obvykle maximalizovat najednou. Proto se architektura skládá z více vrstev a ne z jednoho univerzálního systému.

4. Big Data, HPC a Hadoop

Big Data řeší objem, rychlost a různorodost dat; HPC řeší hlavně výpočetní výkon a nízkou latenci mezi uzly. Nejsou to synonyma. Big Data je více o datech a propustnosti, HPC více o výpočetní síle a paralelním běhu náročných výpočtů.

Big Data vs. HPC

  • HPC je vhodné pro simulace, numerické modely a úlohy, kde záleží na velmi rychlé komunikaci mezi uzly.
  • Big Data platformy jsou vhodné pro logy, senzory, clickstream, IoT a datově náročné analytické pipeline.
  • 3V/5V u Big Data znamená volume, velocity, variety a často i veracity a value.

Hadoop ekosystém

  • Hadoop vznikl jako odpověď na potřebu levně ukládat a zpracovávat velká data na clusteru běžných serverů.
  • HDFS ukládá data po blocích a replikuje je. Hlavní myšlenka je odolnost proti výpadku a data locality, tedy přiblížit výpočet k datům.
  • YARN je správce zdrojů clusteru. Rozděluje kontejnery, plánuje úlohy a řeší sdílení clusteru více týmy.
  • MapReduce funguje ve fázích map -> shuffle/sort -> reduce. Je robustní pro batch, ale má vyšší latenci a není ideální pro iterativní úlohy.
  • Spark zrychluje výpočty díky DAG modelu a práci v paměti; hodí se pro SQL, ETL, ML i stream processing.
  • Hive a další SQL-on-Hadoop nástroje přibližují big data platformu analytikům přes SQL rozhraní.

Lake, warehouse, lakehouse

  • Data lake ukládá hodně surových dat různých typů, ale bez dobré správy může skončit jako "data swamp".
  • Data warehouse je více strukturovaný, kurátorovaný a optimalizovaný na analytiku a reporting.
  • Lakehouse spojuje výhody obou přístupů; důležité jsou tabulkové formáty typu Delta Lake, Iceberg nebo Hudi.

5. Vizualizace, governance, open data a AI

Vizualizace

  • Preatentivní atributy: poloha, velikost, barva, tvar. Tím řídíme pozornost už během zlomku sekundy.
  • Gestalt principy: blízkost, podobnost, kontinuita. Lidé seskupují to, co k sobě vizuálně patří.
  • Vždy volit graf podle úlohy: trend = čára, porovnání = sloupce, vztah = scatter, podíl = koláč jen velmi opatrně.
  • Anti-patterny: 3D grafy, moc barev, špatné osy, dashboard bez pointy, vizualizace bez kontextu.

Governance a AI

  • Governance = role, pravidla, metadata, lineage, audit, bezpečnost a odpovědnosti.
  • FAIR: data mají být dohledatelná, přístupná, interoperabilní a znovupoužitelná.
  • Open data jsou cenný zdroj, ale vždy řeším licenci, aktuálnost a kvalitu.
  • AI stojí na statistice, optimalizaci a datech; bez kvalitních dat nebude fungovat dobře.
  • AI agenti umí plánovat a volat nástroje, ale potřebují guardrails, auditovatelnost a lidskou kontrolu.

Co je důležité z managementu dat

  • Metadata jsou data o datech. Pomáhají najít dataset, pochopit význam sloupců a určit původ dat.
  • Lineage znamená původ a cestu dat systémem. Důležité pro audit, debugging a důvěru.
  • Kvalita dat musí být řízená metrikami, ne dojmem. Typicky úplnost, validita, duplicity, včasnost.
  • Bezpečnost a soukromí řeší přístupy, šifrování, pseudonymizaci a soulad s pravidly typu GDPR.

Co je důležité z AI části

  • AI není magie; stojí na algebře, statistice, optimalizaci a datech.
  • Klasické ML řeší predikce a klasifikaci z tabulkových dat; deep learning se hodí pro složitější nestrukturovaná data.
  • AI v data engineeringu může pomáhat se schématy, čištěním, detekcí anomálií nebo generováním SQL.
  • LLM a AI agenti rozšiřují práci s daty o přirozený jazyk, ale přinášejí rizika halucinací a nutnost validace.

Praktická pointa: nestačí data spočítat. Musí být správná, vysvětlitelná, bezpečně spravovaná a prezentovaná tak, aby z nich šlo rozhodnout.

6. Projekt EnerSight

Cíl projektu: navrhnout datový produkt pro monitoring spotřeby domácností. Firma kombinuje smart-meter data, počasí a cenový signál elektřiny, aby uměla doporučit úspory a odhalovat anomálie. Projekt je dobrý právě tím, že spojuje business cíl, technickou architekturu, governance i analytický výstup.

Co bylo cílem projektu

  • Business otázka: které domácnosti mají největší úsporný potenciál a jak personalizovat doporučení.
  • Architektura: ingest přes Kafka, lakehouse, analytika přes Spark, batch i stream.
  • Governance: retence, role, kvalita dat, pseudonymizace a omezení přístupu.
  • EDA závěr: spotřeba silně souvisí s teplotou, vytápěním a tarifem; bez weather normalizace by reporting klamal.
  • Nejsilnější segment: rodinné domy s elektrickým vytápěním a vysokou zimní spotřebou.
  • Limitace: syntetická data nejsou plná produkční realita a bez A/B testu nelze tvrdit kauzální dopad doporučení.

Jak ten projekt okomentovat

  • Smart meter je chytrý měřič, který posílá jemnější odečty spotřeby, třeba po 15 minutách.
  • Kafka je platforma pro přenos událostí; v projektu dává smysl kvůli ingestu průběžných odečtů.
  • Lakehouse dává smysl, protože projekt kombinuje surová data, čištění i analytické výstupy v jedné architektuře.
  • SLA čerstvosti dat říká, jaký podíl dat dorazí a zpracuje se včas; tady je to nejslabší místo návrhu.
  • Weather normalizace znamená zohlednit počasí při interpretaci spotřeby, jinak je srovnání mezi obdobími zavádějící.
100 % pilotní adopce doporučení
113,58 Kč průměrná měsíční úspora na aktivní domácnost
75 % SLA čerstvosti dat -> slabé místo ingestu

Jednou větou: projekt ukazuje celý datový pipeline od business cíle po analytický výstup; business KPI vypadají dobře, ale technická slabina je čerstvost dat.