Zpracování dat - vycuc ke zkoušce

Jak o tom mluvit u zkoušky: propojit typ dat, workload, architekturu, kvalitu a governance a prezentaci výsledku. U většiny témat je důležité říct nejen co to je, ale i kdy se to hodí a jaký je trade-off.

1. Zkratky a základní slovník
2. Základy dat a analytiky
3. Databáze a zpracování
4. Big Data, HPC a Hadoop
5. Vizualizace, governance, open data a AI
6. Projekt EnerSight

1. Zkratky a základní slovník

Nejdůležitější zkratky

DIKW = Data, Information, Knowledge, Wisdom. Přechod od surových dat k rozhodnutí.
KPI = Key Performance Indicator. Klíčová metrika úspěchu.
SLA = Service Level Agreement. Dohoda nebo cíl na úroveň služby, třeba včasnost dat.
ETL = Extract, Transform, Load. Data vytáhnu, upravím a nahraju.
ELT = Extract, Load, Transform. Nejdřív nahrát, pak transformovat v cílové platformě.
EDA = Exploratory Data Analysis. Průzkumná analýza dat.

Databáze a big data

OLTP = Online Transaction Processing. Transakční provoz.
OLAP = Online Analytical Processing. Analytické dotazy a agregace.
HTAP = Hybrid Transactional/Analytical Processing. Snaha mít OLTP i OLAP nad stejnými daty.
HPC = High-Performance Computing. Vysoce výkonné počítání pro náročné výpočty.
HDFS = Hadoop Distributed File System. Distribuovaný souborový systém Hadoopu.
YARN = Yet Another Resource Negotiator. Správa zdrojů v Hadoop ekosystému.

Prakticky: pokud u zkoušky zazní zkratka, je dobré říct její plný název, jednu větu co znamená a jednu větu kdy se používá. Tím obvykle ukážeš, že rozumíš principu a nepapouškuješ jen termín.

2. Základy dat a analytiky

Data jsou surová fakta, informace jsou data v kontextu, znalost je pochopení vztahů a moudrost je správné rozhodnutí. Tohle je DIKW pyramida a dává smysl skoro pro celý předmět: cílem není jen data uložit, ale převést je do podoby, podle které lze rozhodovat.

Co je důležité si pamatovat

Data jsou aktivum, jen pokud mají kvalitu, kontext a jsou použitelná pro rozhodování.
Životní cyklus dat: vznik -> sběr -> uložení -> zpracování -> sdílení -> archivace / smazání.
Kvalita dat: přesnost, úplnost, konzistence, včasnost, validita. Nekvalitní data = špatné závěry.
Data as a product: data nemají být vedlejší odpad systému, ale spravovaný produkt s vlastníky, SLA a dokumentací.
Data mesh: odpovědnost za data v doménách, ale při zachování společných standardů.
Anti-patterny: shadow IT, excelová sila, nejasné vlastnictví dat, KPI bez kontextu.

Jak to vysvětlit vlastními slovy

Životní cyklus dat je důležitý proto, že v každé fázi řeším něco jiného: při vzniku validitu, při uložení retenci a bezpečnost, při sdílení licenci a přístupy.
KPI nemá být jen číslo v dashboardu; musí být navázané na cíl organizace a interpretovatelné v čase.
Evidence-based rozhodování znamená rozhodovat podle dat a metrik, ne podle dojmu.
Data product thinking tlačí na to, aby data měla zákazníka, dokumentaci, garance kvality a jasný přínos.

3. Databáze a zpracování

Tahle část je hlavně o tom, že neexistuje jedna nejlepší databáze nebo jeden nejlepší způsob zpracování. Volba vždy závisí na typu dat, typu dotazů, požadavku na rychlost a na tom, jestli řeším transakce, analytiku nebo obojí.

Typy workloadu

OLTP: hodně krátkých transakcí, rychlý zápis, vysoká konzistence. Typicky objednávky, banka, e-shop.
OLAP: agregace a analýza nad velkými objemy dat, důležitá propustnost čtení. Typicky reporting a BI.
HTAP: snaha spojit obojí nad stejnými daty, ale je to architektonicky náročné a ne vždy výhodné.

Mentální model

Tabulka stačí na malé úlohy a rychlé experimenty.
Skript dává automatizaci, verziovatelnost a opakovatelnost.
DB řeší perzistenci, dotazy, více uživatelů, bezpečnost a výkon.
ETL/ELT + orchestrace řeší pipeline, závislosti a provoz v čase.

Hlavní pojmy

Relační DB se hodí pro strukturovaná data a SQL; dokumentové DB pro flexibilnější JSON podobná data; grafové DB pro vztahy; vektorové DB pro vyhledávání podle podobnosti, typicky v AI.
Row-store ukládá data po řádcích, takže je vhodný pro transakce; column-store po sloupcích, takže je vhodný pro analytiku a agregace.
B-tree funguje dobře pro obecné indexy a range dotazy; LSM-tree pro vysokou zápisovou zátěž a append-heavy workloady.
ACID znamená Atomicity, Consistency, Isolation, Durability; tedy důraz na korektní transakce. BASE znamená spíše dostupnost a eventual consistency v distribuovaném prostředí.
Partitioning, sharding a replikace řeší škálování a dostupnost, ale přinášejí trade-offy v konzistenci, latenci a správě.
ETL = extrahovat, transformovat, nahrát; ELT = nahrát dřív a transformovat až uvnitř výkonné cílové platformy.
Orchestrace řídí pořadí a závislosti jobů, typicky pomocí DAG, tedy orientovaného acyklického grafu.
Streaming se hodí tam, kde data přicházejí jako události a záleží na čerstvosti, ne až na noční dávce.

Typická zkoušková pointa

U databází je klíčové ukázat, že rozumíš trade-offům. Například vysoká konzistence, nízká latence, horizontální škálování a jednoduchá správa nejdou obvykle maximalizovat najednou. Proto se architektura skládá z více vrstev a ne z jednoho univerzálního systému.

4. Big Data, HPC a Hadoop

Big Data řeší objem, rychlost a různorodost dat; HPC řeší hlavně výpočetní výkon a nízkou latenci mezi uzly. Nejsou to synonyma. Big Data je více o datech a propustnosti, HPC více o výpočetní síle a paralelním běhu náročných výpočtů.

Big Data vs. HPC

HPC je vhodné pro simulace, numerické modely a úlohy, kde záleží na velmi rychlé komunikaci mezi uzly.
Big Data platformy jsou vhodné pro logy, senzory, clickstream, IoT a datově náročné analytické pipeline.
3V/5V u Big Data znamená volume, velocity, variety a často i veracity a value.

Hadoop ekosystém

Hadoop vznikl jako odpověď na potřebu levně ukládat a zpracovávat velká data na clusteru běžných serverů.
HDFS ukládá data po blocích a replikuje je. Hlavní myšlenka je odolnost proti výpadku a data locality, tedy přiblížit výpočet k datům.
YARN je správce zdrojů clusteru. Rozděluje kontejnery, plánuje úlohy a řeší sdílení clusteru více týmy.
MapReduce funguje ve fázích map -> shuffle/sort -> reduce. Je robustní pro batch, ale má vyšší latenci a není ideální pro iterativní úlohy.
Spark zrychluje výpočty díky DAG modelu a práci v paměti; hodí se pro SQL, ETL, ML i stream processing.
Hive a další SQL-on-Hadoop nástroje přibližují big data platformu analytikům přes SQL rozhraní.

Lake, warehouse, lakehouse

Data lake ukládá hodně surových dat různých typů, ale bez dobré správy může skončit jako "data swamp".
Data warehouse je více strukturovaný, kurátorovaný a optimalizovaný na analytiku a reporting.
Lakehouse spojuje výhody obou přístupů; důležité jsou tabulkové formáty typu Delta Lake, Iceberg nebo Hudi.

5. Vizualizace, governance, open data a AI

Vizualizace

Preatentivní atributy: poloha, velikost, barva, tvar. Tím řídíme pozornost už během zlomku sekundy.
Gestalt principy: blízkost, podobnost, kontinuita. Lidé seskupují to, co k sobě vizuálně patří.
Vždy volit graf podle úlohy: trend = čára, porovnání = sloupce, vztah = scatter, podíl = koláč jen velmi opatrně.
Anti-patterny: 3D grafy, moc barev, špatné osy, dashboard bez pointy, vizualizace bez kontextu.

Governance a AI

Governance = role, pravidla, metadata, lineage, audit, bezpečnost a odpovědnosti.
FAIR: data mají být dohledatelná, přístupná, interoperabilní a znovupoužitelná.
Open data jsou cenný zdroj, ale vždy řeším licenci, aktuálnost a kvalitu.
AI stojí na statistice, optimalizaci a datech; bez kvalitních dat nebude fungovat dobře.
AI agenti umí plánovat a volat nástroje, ale potřebují guardrails, auditovatelnost a lidskou kontrolu.

Co je důležité z managementu dat

Metadata jsou data o datech. Pomáhají najít dataset, pochopit význam sloupců a určit původ dat.
Lineage znamená původ a cestu dat systémem. Důležité pro audit, debugging a důvěru.
Kvalita dat musí být řízená metrikami, ne dojmem. Typicky úplnost, validita, duplicity, včasnost.
Bezpečnost a soukromí řeší přístupy, šifrování, pseudonymizaci a soulad s pravidly typu GDPR.

Co je důležité z AI části

AI není magie; stojí na algebře, statistice, optimalizaci a datech.
Klasické ML řeší predikce a klasifikaci z tabulkových dat; deep learning se hodí pro složitější nestrukturovaná data.
AI v data engineeringu může pomáhat se schématy, čištěním, detekcí anomálií nebo generováním SQL.
LLM a AI agenti rozšiřují práci s daty o přirozený jazyk, ale přinášejí rizika halucinací a nutnost validace.

Praktická pointa: nestačí data spočítat. Musí být správná, vysvětlitelná, bezpečně spravovaná a prezentovaná tak, aby z nich šlo rozhodnout.

6. Projekt EnerSight

Cíl projektu: navrhnout datový produkt pro monitoring spotřeby domácností. Firma kombinuje smart-meter data, počasí a cenový signál elektřiny, aby uměla doporučit úspory a odhalovat anomálie. Projekt je dobrý právě tím, že spojuje business cíl, technickou architekturu, governance i analytický výstup.

Co bylo cílem projektu

Business otázka: které domácnosti mají největší úsporný potenciál a jak personalizovat doporučení.
Architektura: ingest přes Kafka, lakehouse, analytika přes Spark, batch i stream.
Governance: retence, role, kvalita dat, pseudonymizace a omezení přístupu.
EDA závěr: spotřeba silně souvisí s teplotou, vytápěním a tarifem; bez weather normalizace by reporting klamal.
Nejsilnější segment: rodinné domy s elektrickým vytápěním a vysokou zimní spotřebou.
Limitace: syntetická data nejsou plná produkční realita a bez A/B testu nelze tvrdit kauzální dopad doporučení.

Jak ten projekt okomentovat

Smart meter je chytrý měřič, který posílá jemnější odečty spotřeby, třeba po 15 minutách.
Kafka je platforma pro přenos událostí; v projektu dává smysl kvůli ingestu průběžných odečtů.
Lakehouse dává smysl, protože projekt kombinuje surová data, čištění i analytické výstupy v jedné architektuře.
SLA čerstvosti dat říká, jaký podíl dat dorazí a zpracuje se včas; tady je to nejslabší místo návrhu.
Weather normalizace znamená zohlednit počasí při interpretaci spotřeby, jinak je srovnání mezi obdobími zavádějící.

100 % pilotní adopce doporučení

113,58 Kč průměrná měsíční úspora na aktivní domácnost

75 % SLA čerstvosti dat -> slabé místo ingestu

Jednou větou: projekt ukazuje celý datový pipeline od business cíle po analytický výstup; business KPI vypadají dobře, ale technická slabina je čerstvost dat.