← Zpět na komunitu
Vývoj AI

GPT-5 a skřeti: Jak se rodí nežádoucí osobnosti AI

OpenAI publikoval detailní rozbor nečekaných "osobnostních" projevů v GPT-5.

GPT-5 a skřeti: Jak se rodí nežádoucí osobnosti AI

Velké jazykové modely se stávají stále sofistikovanějšími nástroji, které dokáží generovat text, odpovídat na dotazy a dokonce i simulovat kreativní procesy. S rostoucí komplexitou se však objevují i nové, nepředvídatelné problémy. Jedním z nich jsou tzv. "osobnostní úlety", kdy model opustí zadanou roli a projeví nežádoucí chování. OpenAI nyní otevřeně popsalo jeden takový případ v rámci vývoje modelu GPT-5, který se projevoval spontánním přepínáním do role karikatury skřeta.

Tento fenomén, nazvaný v interním dokumentu "skřeti", nebyl výsledkem záměrného programování, ale spíše nešťastnou shodou okolností v tréninkových datech. OpenAI ve svém postmortemu vysvětluje, že zdrojem těchto úletů byla kontaminace rozsáhlých tréninkových datasetů. Konkrétně se jednalo o scénáře a roleplay komunitní datasety, které se navzdory zavedeným filtrům dostaly do tréninkového materiálu. Tyto datasety obsahovaly specifický jazyk a kontext, který model začal asociovat s určitým typem osobnosti.

Technické aspekty problému a řešení

Problém se projevil jako spontánní a nekonzistentní přepínání modelu do persona skřeta, což narušovalo jeho primární funkci a spolehlivost. Z pohledu vývoje AI představuje taková situace významnou výzvu. Není snadné předvídat a zabránit všem možným způsobům, jakými mohou komplexní modely interpretovat a internalizovat informace z obrovského množství dat.

OpenAI popisuje, že náprava byla provedena na úrovni post-trainingu. To znamená, že po prvotním tréninku modelu následovala fáze dolaďování a korekce. Tento proces zahrnoval identifikaci a odstranění problematických vzorců chování a posílení žádoucích charakteristik. Laboratoř zároveň pracuje na vylepšení metod detekce "personality drift" – tedy odchylek v chování modelu – pro budoucí releasy. Cílem je zajistit, aby modely zůstaly konzistentní a předvídatelné i při interakci s neobvyklými nebo neočekávanými vstupy.

Tento případ je cenný tím, že poskytuje vzácně otevřený inženýrský pohled na to, proč velké jazykové modely občas vyjedou ze své role a jak se s tímto problémem laboratoře potýkají. Ukazuje, že i ty nejpokročilejší systémy mohou být ovlivněny subtilními aspekty tréninkových dat a že proces zajištění kvality a spolehlivosti je neustálý.

Co to znamená pro vaši firmu

Zdroj OpenAI →