Datový kanibalismus: Proč AI generuje nesmysly?

Umělá inteligence by měla být naším nejlepším pomocníkem. Místo toho nám často servíruje polopravdy nebo naprosté nesmysly. A viník není v kódu, ale v tom, co modely „jedí“. Jev, který odborníci označují jako datový kanibalismus, se stává hlavní překážkou pro důvěryhodnost AI systémů.

Když si otevřete jakýkoli chatbot a zeptáte se na fakt, očekáváte odpověď založenou na realitě. Někdy dostanete něco, co zní přesvědčivě, ale je to fikce. Zpráva z portálu Praha na Dlani upozorňuje na tento paradox: systémy zaplavují svět, ale jejich výstupy jsou stále častěji zavádějící. Proč? Protože AI začíná učit se sama od sebe.

Jak vzniká iluze chytrosti

Představte si studenta, který se učí ke zkoušce. Na začátku čte originální učebnice, vědecké články a ověřené zdroje. Je chytrý a přesný. Ale co když mu původní knihy dojdou? Začne pak číst shrnutí, která napsali jiní studenti. A ti zase čtou shrnutí shrnutí. Informace se postupně ztrácí, nuance mizí a objevují se chyby.

To je podstata problému. Aby byly systémy umělé inteligence lidem co nejvíce k užitku, musí se učit na velkém množství reálných dat. Skutečných rozhovorů, historických dokumentů, technických manuálů. Problém nastává teď. Internet je plný textů vygenerovaných stroji. Odhaduje se, že až 50 % obsahu na webu může mít AI původ. Když se modely znovu trenují na těchto datech, konzumují vlastní výstupy. Kanibalizují data.

Proč je čistá voda vzácnost?

Vědci z univerzit po celém světě, včetně týmů pracujících pro firmy jako Google nebo Microsoft, hlásí alarmující trend. Kvalitní, lidsky vytvořená data se vyčerpávají. V roce 2023 bylo odhadováno, že jazykové modely spotřebovaly většinu veřejně dostupného kvalitního anglického textu.

Sam Altman, CEO společnosti OpenAI, nedávno naznačil, že budoucnost tréninku nebude spočívat v hledání nových dat na internetu, ale v syntetických datech nebo uzavřených databázích. To je riskantní cesta. Pokud model trénujete na datech, která sám vyrobil dříve, riskujete tzv. mode collapse – stav, kdy se výstupy stanou stereotypními a ztratí kreativitu i přesnost.

Dopad na běžného uživatele

Co to znamená pro vás? Pokud používáte AI k psaní e-mailů, kódování nebo bádání, jste první frontou tohoto problému. Chyby se neobjevují náhodně. Jsou systematické. Model začne opakovat vlastní halucinace. Řekne vám, že určitá historická událost proběhla jinak, než byla, protože četl špatné shrnutí na blogu, které také napsal stroj.

Podle studie publikované v časopise Nature mohou velké jazykové modely při opakovaném tréninku na vlastních výstupech rychle degradovat svou schopnost logického usuzování. Nejde jen o drobné nepřesnosti. Jde o erozi samotného základu pravdy, kterou AI reprezentuje.

Cesta ven: Syntetická data a regulace

Odborníci hledají řešení. Jedním z nich je vytváření syntetických dat s vysokou mírou kontroly. Jiným je označování obsahu vytvořeného AI (watermarking), aby ho algoritmy mohly filtrovat. Evropská unie v rámci AI Actu tlačí na transparentnost zdrojů dat, což by mělo pomoci oddělit lidský obsah od strojového.

Ale zatím jsme v přechodném období. Internet je mixem zlata a popela. A AI má tendenci spolknout vše bez rozdílu. Dokud nenajdeme způsob, jak efektivně filtrovat "umělá" data, budeme muset přijmout jednu nepříjemnou pravdu: AI je chytrá, ale její paměť je stále více zkažená.

Často kladené otázky

Co přesně znamená termín datový kanibalismus?

Datový kanibalismus popisuje situaci, kdy se systémy umělé inteligence učí na datech, která již byla vygenerována jinými AI systémy. Místo učení se z primárních, lidských zdrojů (knihy, články) konzumují sekundární obsah, což vede k postupné degradaci kvality a přesnosti informací, podobně jako při kopírování fotografie z fotky.

Jak poznám, že mi AI říká nesmysly?

Vždy ověřujte kritická fakta ve spolehlivých, primárních zdrojích. AI má tendenci znít velmi jistě i při lži (tzv. halucinace). Pokud vám model uvádí specifické statistiky, citace nebo jména, proveďte rychlé vyhledávání. Rozpor mezi výstupem AI a ověřeným zdrojem je varovným signálem.

Znamená to konec pro vývoj umělé inteligence?

Ne, ale znamená to změnu strategie. Vývojáři se přesouvají od sbírání volných dat z internetu k využití licencovaných databází a syntetických dat. Cíl najít cestu, jak udržet kvalitu modelů, aniž by závisely na nekonečném toku nového lidského obsahu, který se vyčerpává.

Má EU nějaká pravidla proti tomuto jevu?

Ano, evropský AI Act požaduje větší transparentnost ohledně tréninkových dat. Vývojáři high-risk modelů musí poskytovat souhrny údajů, na kterých se jejich systémy učily. To pomáhá identifikovat, zda došlo k nadměrnému použití generovaného obsahu a umožní lepší kontrolu kvality.