Jak měřím LLM, který v produkci čte faktury

Když pošleš LLM do produkce a neumíš číslem říct, jak je dobrý, neprovozuješ produkt, provozuješ demo. Evaluace DokladBotu, mého fakturačního SaaS, co extrahuje data z účtenek, není jednorázový benchmark. Je to stálá disciplína. Takhle o tom přemýšlím a tohle reálně měřím.

Přesnost není jedno číslo

"Je ta extrakce přesná?" je špatná otázka, protože účtenka má víc polí a nezáleží na nich stejně. Mírně špatné jméno dodavatele je pokrčení rameny. Špatná částka nebo DPH je selhání, co ničí důvěru. Proto měřím kvalitu po jednotlivých polích, ne jako jedno smíchané skóre, a pole vážím podle toho, kolik uživatele chyba stojí.

Labeled set je ten poklad

Co dělá evaluaci vůbec možnou, je pevný labeled testovací set: reálné dokumenty se správnou částkou, DPH, dodavatelem, datem a IČO zapsanými ručně. Tenhle set je poklad, cennější než jakýkoliv jednotlivý prompt, protože každá změna se boduje proti stejným dokumentům. Bez něj je "ten nový prompt působí líp" pocit, ne měření.

Metriky, na kterých záleží

U každého pole sleduju precision a recall: když model pole vyplní, jak často je to správně (precision), a jak často vyplní pole, které vyplnit má (recall). U částky a DPH mi jde o precision nade vše, protože sebejistě špatné číslo je horší než prázdné. Pro pohled end-to-end sleduju podíl dokumentů, co nepotřebují žádnou opravu, což je ta produktová metrika, do které se evaluace modelu sčítá.

Práh důvěry je produktové rozhodnutí

Model nevrací jen hodnotu, vrací hodnotu, na kterou umím routovat. Pod prahem důvěry jde dokument na human-in-the-loop kontrolu místo automatického zaúčtování. Nastavení toho prahu je ústřední tradeoff: moc nízko a lidi ztratí důvěru, protože proklouznou špatné hodnoty, moc vysoko a produkt otravuje kvůli dokumentům, co zvládl sám. Ladění není úkol pro model, je to produktový úsudek informovaný eval čísly.

Fallback přes víc modelů, měřený ne předpokládaný

DokladBot umí fallback mezi modely. Smysl eval setu je, že nehádám, který model je lepší, boduju je na stejných dokumentech a nechám čísla rozhodnout, včetně nákladů. Levnější model, co udrží precision na částce a DPH, je lepší produkt, i když ztratí bod na jménech dodavatelů. Tohle rozhodnutí je možné jen proto, že ta evaluace existuje.

Regresní testy mezi verzemi

Riziko u LLM produktů je tichá regrese: poskytovatel aktualizuje model, nebo já změním prompt, a kvalita potichu klesne na poli, co nikdo nehlídal. Proto každá změna znovu projede labeled set a já porovnám precision a recall po polích s předchozí verzí. Když klesne precision na částce, změna nejde ven, ať vypadá na pár příkladech jakkoliv dobře.

Proč je tohle ta AI PM dovednost

Napojit LLM na API umí každý. Těžší a vzácnější dovednost je vědět, jestli je dost dobrý na to věřit mu, kam dát člověka, který model vybrat a kdy změna věci zhoršila. To je evaluace, a je to ta část AI produktové práce, co odděluje demo od produktu. A je to taky práce, kterou na DokladBotu dělám každý týden.

DokladBot je live v betě. Pokud shipuješ LLM produkt a chceš na něj tuhle evaluační disciplínu, napiš mi.