- 1. Zkratky a základní slovník
- 2. Základy dat a analytiky
- 3. Databáze a zpracování
- 4. Big Data, HPC a Hadoop
- 5. Vizualizace, governance, open data a AI
- 6. Projekt EnerSight
1. Zkratky a základní slovník
Nejdůležitější zkratky
- DIKW = Data, Information, Knowledge, Wisdom. Přechod od surových dat k rozhodnutí.
- KPI = Key Performance Indicator. Klíčová metrika úspěchu.
- SLA = Service Level Agreement. Dohoda nebo cíl na úroveň služby, třeba včasnost dat.
- ETL = Extract, Transform, Load. Data vytáhnu, upravím a nahraju.
- ELT = Extract, Load, Transform. Nejdřív nahrát, pak transformovat v cílové platformě.
- EDA = Exploratory Data Analysis. Průzkumná analýza dat.
Databáze a big data
- OLTP = Online Transaction Processing. Transakční provoz.
- OLAP = Online Analytical Processing. Analytické dotazy a agregace.
- HTAP = Hybrid Transactional/Analytical Processing. Snaha mít OLTP i OLAP nad stejnými daty.
- HPC = High-Performance Computing. Vysoce výkonné počítání pro náročné výpočty.
- HDFS = Hadoop Distributed File System. Distribuovaný souborový systém Hadoopu.
- YARN = Yet Another Resource Negotiator. Správa zdrojů v Hadoop ekosystému.
Prakticky: pokud u zkoušky zazní zkratka, je dobré říct její plný název, jednu větu co znamená a jednu větu kdy se používá. Tím obvykle ukážeš, že rozumíš principu a nepapouškuješ jen termín.
2. Základy dat a analytiky
Data jsou surová fakta, informace jsou data v kontextu, znalost je pochopení vztahů a moudrost je správné rozhodnutí. Tohle je DIKW pyramida a dává smysl skoro pro celý předmět: cílem není jen data uložit, ale převést je do podoby, podle které lze rozhodovat.
Co je důležité si pamatovat
- Data jsou aktivum, jen pokud mají kvalitu, kontext a jsou použitelná pro rozhodování.
- Životní cyklus dat: vznik -> sběr -> uložení -> zpracování -> sdílení -> archivace / smazání.
- Kvalita dat: přesnost, úplnost, konzistence, včasnost, validita. Nekvalitní data = špatné závěry.
- Data as a product: data nemají být vedlejší odpad systému, ale spravovaný produkt s vlastníky, SLA a dokumentací.
- Data mesh: odpovědnost za data v doménách, ale při zachování společných standardů.
- Anti-patterny: shadow IT, excelová sila, nejasné vlastnictví dat, KPI bez kontextu.
Jak to vysvětlit vlastními slovy
- Životní cyklus dat je důležitý proto, že v každé fázi řeším něco jiného: při vzniku validitu, při uložení retenci a bezpečnost, při sdílení licenci a přístupy.
- KPI nemá být jen číslo v dashboardu; musí být navázané na cíl organizace a interpretovatelné v čase.
- Evidence-based rozhodování znamená rozhodovat podle dat a metrik, ne podle dojmu.
- Data product thinking tlačí na to, aby data měla zákazníka, dokumentaci, garance kvality a jasný přínos.
3. Databáze a zpracování
Tahle část je hlavně o tom, že neexistuje jedna nejlepší databáze nebo jeden nejlepší způsob zpracování. Volba vždy závisí na typu dat, typu dotazů, požadavku na rychlost a na tom, jestli řeším transakce, analytiku nebo obojí.
Typy workloadu
- OLTP: hodně krátkých transakcí, rychlý zápis, vysoká konzistence. Typicky objednávky, banka, e-shop.
- OLAP: agregace a analýza nad velkými objemy dat, důležitá propustnost čtení. Typicky reporting a BI.
- HTAP: snaha spojit obojí nad stejnými daty, ale je to architektonicky náročné a ne vždy výhodné.
Mentální model
- Tabulka stačí na malé úlohy a rychlé experimenty.
- Skript dává automatizaci, verziovatelnost a opakovatelnost.
- DB řeší perzistenci, dotazy, více uživatelů, bezpečnost a výkon.
- ETL/ELT + orchestrace řeší pipeline, závislosti a provoz v čase.
Hlavní pojmy
- Relační DB se hodí pro strukturovaná data a SQL; dokumentové DB pro flexibilnější JSON podobná data; grafové DB pro vztahy; vektorové DB pro vyhledávání podle podobnosti, typicky v AI.
- Row-store ukládá data po řádcích, takže je vhodný pro transakce; column-store po sloupcích, takže je vhodný pro analytiku a agregace.
- B-tree funguje dobře pro obecné indexy a range dotazy; LSM-tree pro vysokou zápisovou zátěž a append-heavy workloady.
- ACID znamená Atomicity, Consistency, Isolation, Durability; tedy důraz na korektní transakce. BASE znamená spíše dostupnost a eventual consistency v distribuovaném prostředí.
- Partitioning, sharding a replikace řeší škálování a dostupnost, ale přinášejí trade-offy v konzistenci, latenci a správě.
- ETL = extrahovat, transformovat, nahrát; ELT = nahrát dřív a transformovat až uvnitř výkonné cílové platformy.
- Orchestrace řídí pořadí a závislosti jobů, typicky pomocí DAG, tedy orientovaného acyklického grafu.
- Streaming se hodí tam, kde data přicházejí jako události a záleží na čerstvosti, ne až na noční dávce.
Typická zkoušková pointa
U databází je klíčové ukázat, že rozumíš trade-offům. Například vysoká konzistence, nízká latence, horizontální škálování a jednoduchá správa nejdou obvykle maximalizovat najednou. Proto se architektura skládá z více vrstev a ne z jednoho univerzálního systému.
4. Big Data, HPC a Hadoop
Big Data řeší objem, rychlost a různorodost dat; HPC řeší hlavně výpočetní výkon a nízkou latenci mezi uzly. Nejsou to synonyma. Big Data je více o datech a propustnosti, HPC více o výpočetní síle a paralelním běhu náročných výpočtů.
Big Data vs. HPC
- HPC je vhodné pro simulace, numerické modely a úlohy, kde záleží na velmi rychlé komunikaci mezi uzly.
- Big Data platformy jsou vhodné pro logy, senzory, clickstream, IoT a datově náročné analytické pipeline.
- 3V/5V u Big Data znamená volume, velocity, variety a často i veracity a value.
Hadoop ekosystém
- Hadoop vznikl jako odpověď na potřebu levně ukládat a zpracovávat velká data na clusteru běžných serverů.
- HDFS ukládá data po blocích a replikuje je. Hlavní myšlenka je odolnost proti výpadku a data locality, tedy přiblížit výpočet k datům.
- YARN je správce zdrojů clusteru. Rozděluje kontejnery, plánuje úlohy a řeší sdílení clusteru více týmy.
- MapReduce funguje ve fázích map -> shuffle/sort -> reduce. Je robustní pro batch, ale má vyšší latenci a není ideální pro iterativní úlohy.
- Spark zrychluje výpočty díky DAG modelu a práci v paměti; hodí se pro SQL, ETL, ML i stream processing.
- Hive a další SQL-on-Hadoop nástroje přibližují big data platformu analytikům přes SQL rozhraní.
Lake, warehouse, lakehouse
- Data lake ukládá hodně surových dat různých typů, ale bez dobré správy může skončit jako "data swamp".
- Data warehouse je více strukturovaný, kurátorovaný a optimalizovaný na analytiku a reporting.
- Lakehouse spojuje výhody obou přístupů; důležité jsou tabulkové formáty typu Delta Lake, Iceberg nebo Hudi.
5. Vizualizace, governance, open data a AI
Vizualizace
- Preatentivní atributy: poloha, velikost, barva, tvar. Tím řídíme pozornost už během zlomku sekundy.
- Gestalt principy: blízkost, podobnost, kontinuita. Lidé seskupují to, co k sobě vizuálně patří.
- Vždy volit graf podle úlohy: trend = čára, porovnání = sloupce, vztah = scatter, podíl = koláč jen velmi opatrně.
- Anti-patterny: 3D grafy, moc barev, špatné osy, dashboard bez pointy, vizualizace bez kontextu.
Governance a AI
- Governance = role, pravidla, metadata, lineage, audit, bezpečnost a odpovědnosti.
- FAIR: data mají být dohledatelná, přístupná, interoperabilní a znovupoužitelná.
- Open data jsou cenný zdroj, ale vždy řeším licenci, aktuálnost a kvalitu.
- AI stojí na statistice, optimalizaci a datech; bez kvalitních dat nebude fungovat dobře.
- AI agenti umí plánovat a volat nástroje, ale potřebují guardrails, auditovatelnost a lidskou kontrolu.
Co je důležité z managementu dat
- Metadata jsou data o datech. Pomáhají najít dataset, pochopit význam sloupců a určit původ dat.
- Lineage znamená původ a cestu dat systémem. Důležité pro audit, debugging a důvěru.
- Kvalita dat musí být řízená metrikami, ne dojmem. Typicky úplnost, validita, duplicity, včasnost.
- Bezpečnost a soukromí řeší přístupy, šifrování, pseudonymizaci a soulad s pravidly typu GDPR.
Co je důležité z AI části
- AI není magie; stojí na algebře, statistice, optimalizaci a datech.
- Klasické ML řeší predikce a klasifikaci z tabulkových dat; deep learning se hodí pro složitější nestrukturovaná data.
- AI v data engineeringu může pomáhat se schématy, čištěním, detekcí anomálií nebo generováním SQL.
- LLM a AI agenti rozšiřují práci s daty o přirozený jazyk, ale přinášejí rizika halucinací a nutnost validace.
Praktická pointa: nestačí data spočítat. Musí být správná, vysvětlitelná, bezpečně spravovaná a prezentovaná tak, aby z nich šlo rozhodnout.
6. Projekt EnerSight
Cíl projektu: navrhnout datový produkt pro monitoring spotřeby domácností. Firma kombinuje smart-meter data, počasí a cenový signál elektřiny, aby uměla doporučit úspory a odhalovat anomálie. Projekt je dobrý právě tím, že spojuje business cíl, technickou architekturu, governance i analytický výstup.
Co bylo cílem projektu
- Business otázka: které domácnosti mají největší úsporný potenciál a jak personalizovat doporučení.
- Architektura: ingest přes Kafka, lakehouse, analytika přes Spark, batch i stream.
- Governance: retence, role, kvalita dat, pseudonymizace a omezení přístupu.
- EDA závěr: spotřeba silně souvisí s teplotou, vytápěním a tarifem; bez weather normalizace by reporting klamal.
- Nejsilnější segment: rodinné domy s elektrickým vytápěním a vysokou zimní spotřebou.
- Limitace: syntetická data nejsou plná produkční realita a bez A/B testu nelze tvrdit kauzální dopad doporučení.
Jak ten projekt okomentovat
- Smart meter je chytrý měřič, který posílá jemnější odečty spotřeby, třeba po 15 minutách.
- Kafka je platforma pro přenos událostí; v projektu dává smysl kvůli ingestu průběžných odečtů.
- Lakehouse dává smysl, protože projekt kombinuje surová data, čištění i analytické výstupy v jedné architektuře.
- SLA čerstvosti dat říká, jaký podíl dat dorazí a zpracuje se včas; tady je to nejslabší místo návrhu.
- Weather normalizace znamená zohlednit počasí při interpretaci spotřeby, jinak je srovnání mezi obdobími zavádějící.
Jednou větou: projekt ukazuje celý datový pipeline od business cíle po analytický výstup; business KPI vypadají dobře, ale technická slabina je čerstvost dat.