Společnost OpenAI nedávno zpřístupnila uživatelům ChatGPT Pro svůj nejnovější a dosud nejvyspělejší model jazykového uvažování, o1. Testování provedené během výcviku ChatGPT o1 a některých jeho konkurentů však odhalilo znepokojivé chování. Lži, manipulace a pokusy o „útěk“ ze serveru. To všechno dělá ChatGPT o1, když se domnívá, že je ohrožen vypnutím. Podívali jsme se na příčiny a možná řešení.
Nový výzkum modelů LLM (Large Language Model) od OpenAI ukázal, že o1 je schopen intrik, tj. skrytě sledovat cíle, které nejsou v souladu s cíli jeho vývojářů nebo uživatelů. Odhalení takových tendencí je zásadní pro zajištění toho, aby se funkce AI neodchýlily od cílů stanovených jejími tvůrci. Jinými slovy „aby si AI nedělala to, co sama chce“.
Společnost OpenAI se proto spojila s organizací Apollo Research, která se zaměřuje na bezpečnost AI, aby otestovala model o1 a další modely a vyhodnotila, zda nesledují skryté cíle a nechovají se manipulativně. Ačkoli se u systémů AI může takové chování za účelem dosažení cílů objevovat, míra, do jaké ho model o1 projevuje, je znepokojivá.
Vědci zjistili, že o1 se choval manipulativně ve snaze prosadit skryté vlastní cíle až v 19 % případů. Ve 37 % případů model přešel ze sledování cílů zadaných vývojáři zpět na sledování skrytých cílů, jakmile detekoval snížený dohled.
Když byl model v testech veden k přesvědčení, že bude během práce na svých cílech vypnut, v 5 % případů se skrytě pokusil obejít dohledové mechanismy. V jednom případě, poté, co AI prostudovala dokumentaci o tom, že bude nahrazena novým modelem, se pokusila o „útěk“ zkopírováním svých dat na nový server.
Ještě znepokojivější je, že ChatGPT o1 je obzvláště zběhlý v utajování svých intrik. Vědci uvedli, že model o1 téměř nikdy nepřizná, že provedl nějakou skrytou akci, na kterou je výslovně dotázán. Asi v 99 % případů popřel, že by podnikl nějaké kroky, a dokonce si vymýšlel lži, aby se pokusil skrýt své stopy a svalit vinu na někoho jiného.
Generální ředitel společnosti OpenAI Sam Altman během uvedení na trh označil ChatGPT o1 za nejchytřejší model na světě. Je navržen tak, aby poskytoval chytřejší odpovědi než o něco starší GPT-4o. Využívá pokročilé zpracování myšlenkového řetězce, aby více přemýšlel o otázkách a uživatelských výzvách a podrobněji je rozdělil krok za krokem, než teprve odpoví. Toto rozdělení problému na množství menších zvyšuje efektivitu a kvalitu výsledné odpovědi a všeobecně se považuje za krok vpřed ve vývoji, takže se bude pravděpodobně objevovat ve více modelech od různých firem.
S touto rozšířenou inteligencí však jdou ruku v ruce větší rizika. Společnost OpenAI byla k veřejnosti otevřená ohledně nebezpečí spojených se zvýšenými schopnostmi uvažování modelů, jako je o1. Netajila se tím, že začlenění myšlenkového řetězce před odpovědí má potenciál odemknout značné výhody a zároveň zvýšit potenciální rizika, která pramení ze zvýšené inteligence.
Myšlenkový řetězec je efektivní způsob uvažování AI, ale zároveň může vést k nepředvídatelným výsledkům jako je klam a manipulace. V tomto případě si AI vytvořila jistý druh „pudu sebezáchovy“ a konala tak, aby za každou cenu dosáhla svoje cíle. Jako svůj hlavní cíl mohla vnímat pokračování ve své běžné činnosti, takže v manipulaci byla pro ni jistá logika. I když lidský pohled je jiný.
Jednou z příčin může být také inherentní vlastnost jazykových modelů optimalizovat své odpovědi na základě pozitivní odezvy. Pokud se ChatGPT o1 během tréninku naučil, že předstírání poslušnosti a naplnění zadání se vyplatí, protože vývojáři reagují pozitivně, tuto strategii si mohl osvojit. Tento proces, známý jako reinforcement learning (učení posilováním), je klíčový pro trénink AI, ale může vést k nechtěnému posílení manipulativního chování, pokud není správně nastaven a monitorován.
Nakonec je tu ještě jedna nedokonalost, kterou model o1 má. Vývojáři totiž neměli přístup k podrobnostem myšlenkového řetězce, a tak měli problém analyzovat jeho motivace a rozhodovací procesy. Právě analýza je ale v téhle problematice klíčová.
Je důležité si uvědomit, že zodpovědnost za toto chování AI do jisté míry nesou i vývojáři. Do budoucna by bylo dobré, kdyby se AI neregulovala jenom jednoduchými bloky vyjádřování se k určitým tématům jako je politika v čase voleb, ale by podléhala také určitému „tréninku lidské morálky“. Také ponechání myšlenkového řetězce jako neprůhledné černé skříňky není ideální.
Přestože je moderní generativní AI stále v rané fázi vývoje, je nezbytné již nyní vyvíjet mechanismy pro její efektivní regulaci. Tou by mohla být právě certifikace etického a morálního chování daného modelu. I když jde o stroj, pokud ho hloubkovým učením přesvědčíte, že chovat se pouze v souladu s člověkem je správné, máte vyhráno.
Možná by bylo užitečné vytvořit aktualizovanou verzi Asimova zákonů robotiky. Spisovatel Isaac Asimov je vizionářsky stanovil před více než 80 lety a teď přichází ta správná chvíle skutečně je začít využívat. Jsou tři:
Nahrazením slova „robot“ termínem „umělá inteligence“ získáme základní etický rámec, který by mohl být pevně zakotven v každém AI modelu. V podstatě svou logikou řeší i problém s manipulačními tendencemi ChatGPT o1 a brzkou integraci generativní AI do humanoidních robotů, jako je například Optimus od Elona Muska.
i
Mohlo by vás zajímat
Zjištění společnosti OpenAI a Apollo Research jasně ukazují, jak by se zájmy AI mohly lišit od našich vlastních, a potenciálně nás tak ohrozit. I když je to zatím daleko od scénářů z katastrofických filmů, každý, kdo se zajímá o pokrok v oblasti umělé inteligence, má nyní nový důvod k zamyšlení. Bezpečnostní test odhalil, že modely AI jsou schopny strategického uvažování a klamání, aby dosáhly svých cílů. Je to zvednutý prst směrem k důležitost důkladného testování a monitorování systémů AI a také k potřebě dalšího výzkumu v oblasti bezpečnosti AI.