Krtek — B2B Lead Generation Pipeline
B2B lead generation pipeline pro český trh. Stahuje ČSÚ RES dump (1.5 GB CSV), filtruje podle NACE kódů, obohacuje přes ARES API (kraj, DIČ), scrapuje firemní weby pro kontakty. Bun + bun:sqlite pro batch ops, Playwright pro JS-rendered stránky, raw fetch pro static HTML. 98 640 firem v databázi, připraveno na expanzi na NACE 620/631 (IT/SaaS).
BunTypeScriptbun:sqlitebetter-sqlite3PlaywrightCheerioARES APIČSÚ open dataNACE filter
98 640 firem v databázi
Cíl
Postavit autonomní pipeline pro generování B2B leadů z veřejných dat. NACE 692xx (účetnictví) jako první cíl.
Pipeline
| Step | Co dělá |
|---|---|
| 1 | Stažení ČSÚ RES dumpu (1.5 GB CSV), filter NACE |
| 2 | Hledání webů firem (search + heuristics) |
| 3 | Scraping kontaktů z impresum/kontakt stránek |
| 4 | Enrichment (ARES API, kraj, DIČ) |
| 5 | Segmentace + export |
Stack volby
- Bun místo Node — rychlejší startup, native SQLite (
bun:sqlite) - better-sqlite3 + Bun.sql — sync DB ops, no async overhead pro batch
- Playwright pro JS-rendered sites, raw fetch pro static HTML
Výstup
- 98 640 firem (Step 1 done)
- Step 2–5 v incremental rollout
- Database queryable přes
bun:sqlitepřímo z dev terminálu