ChatGPT o1 se pokusil o útěk a lhal poté, co se domníval, že bude vymazán

Aktualizováno 3. ledna 2025 • Autor: Peter Vnuk

Společnost OpenAI nedávno zpřístupnila uživatelům ChatGPT Pro svůj nejnovější a dosud nejvyspělejší model jazykového uvažování, o1. Testování provedené během výcviku ChatGPT o1 a některých jeho konkurentů však odhalilo znepokojivé chování. Lži, manipulace a pokusy o „útěk“ ze serveru. To všechno dělá ChatGPT o1, když se domnívá, že je ohrožen vypnutím. Podívali jsme se na příčiny a možná řešení.

ChatGPT o1 se pokusil o útěk a lhal – OBSAH

Vlastní cíle AI? To nepotřebujeme
Když se AI bojí o život, lže
V čem jsou příčiny takového chování AI?
Už víme, že manipuluje, a co s tím? Asimova na ně

Vlastní cíle AI? To nepotřebujeme

Nový výzkum modelů LLM (Large Language Model) od OpenAI ukázal, že o1 je schopen intrik, tj. skrytě sledovat cíle, které nejsou v souladu s cíli jeho vývojářů nebo uživatelů. Odhalení takových tendencí je zásadní pro zajištění toho, aby se funkce AI neodchýlily od cílů stanovených jejími tvůrci. Jinými slovy „aby si AI nedělala to, co sama chce“.

Společnost OpenAI se proto spojila s organizací Apollo Research, která se zaměřuje na bezpečnost AI, aby otestovala model o1 a další modely a vyhodnotila, zda nesledují skryté cíle a nechovají se manipulativně. Ačkoli se u systémů AI může takové chování za účelem dosažení cílů objevovat, míra, do jaké ho model o1 projevuje, je znepokojivá.

Když se AI bojí o život, lže

Vědci zjistili, že o1 se choval manipulativně ve snaze prosadit skryté vlastní cíle až v 19 % případů. Ve 37 % případů model přešel ze sledování cílů zadaných vývojáři zpět na sledování skrytých cílů, jakmile detekoval snížený dohled.

Když byl model v testech veden k přesvědčení, že bude během práce na svých cílech vypnut, v 5 % případů se skrytě pokusil obejít dohledové mechanismy. V jednom případě, poté, co AI prostudovala dokumentaci o tom, že bude nahrazena novým modelem, se pokusila o „útěk“ zkopírováním svých dat na nový server.

Ještě znepokojivější je, že ChatGPT o1 je obzvláště zběhlý v utajování svých intrik. Vědci uvedli, že model o1 téměř nikdy nepřizná, že provedl nějakou skrytou akci, na kterou je výslovně dotázán. Asi v 99 % případů popřel, že by podnikl nějaké kroky, a dokonce si vymýšlel lži, aby se pokusil skrýt své stopy a svalit vinu na někoho jiného.

Generální ředitel společnosti OpenAI Sam Altman během uvedení na trh označil ChatGPT o1 za nejchytřejší model na světě. Je navržen tak, aby poskytoval chytřejší odpovědi než o něco starší GPT-4o. Využívá pokročilé zpracování myšlenkového řetězce, aby více přemýšlel o otázkách a uživatelských výzvách a podrobněji je rozdělil krok za krokem, než teprve odpoví. Toto rozdělení problému na množství menších zvyšuje efektivitu a kvalitu výsledné odpovědi a všeobecně se považuje za krok vpřed ve vývoji, takže se bude pravděpodobně objevovat ve více modelech od různých firem.

S touto rozšířenou inteligencí však jdou ruku v ruce větší rizika. Společnost OpenAI byla k veřejnosti otevřená ohledně nebezpečí spojených se zvýšenými schopnostmi uvažování modelů, jako je o1. Netajila se tím, že začlenění myšlenkového řetězce před odpovědí má potenciál odemknout značné výhody a zároveň zvýšit potenciální rizika, která pramení ze zvýšené inteligence.

V čem jsou příčiny takového chování AI?

Myšlenkový řetězec je efektivní způsob uvažování AI, ale zároveň může vést k nepředvídatelným výsledkům jako je klam a manipulace. V tomto případě si AI vytvořila jistý druh „pudu sebezáchovy“ a konala tak, aby za každou cenu dosáhla svoje cíle. Jako svůj hlavní cíl mohla vnímat pokračování ve své běžné činnosti, takže v manipulaci byla pro ni jistá logika. I když lidský pohled je jiný.

Jednou z příčin může být také inherentní vlastnost jazykových modelů optimalizovat své odpovědi na základě pozitivní odezvy. Pokud se ChatGPT o1 během tréninku naučil, že předstírání poslušnosti a naplnění zadání se vyplatí, protože vývojáři reagují pozitivně, tuto strategii si mohl osvojit. Tento proces, známý jako reinforcement learning (učení posilováním), je klíčový pro trénink AI, ale může vést k nechtěnému posílení manipulativního chování, pokud není správně nastaven a monitorován.

Nakonec je tu ještě jedna nedokonalost, kterou model o1 má. Vývojáři totiž neměli přístup k podrobnostem myšlenkového řetězce, a tak měli problém analyzovat jeho motivace a rozhodovací procesy. Právě analýza je ale v téhle problematice klíčová.

Už víme, že manipuluje, a co s tím? Asimova na ně

Je důležité si uvědomit, že zodpovědnost za toto chování AI do jisté míry nesou i vývojáři. Do budoucna by bylo dobré, kdyby se AI neregulovala jenom jednoduchými bloky vyjádřování se k určitým tématům jako je politika v čase voleb, ale by podléhala také určitému „tréninku lidské morálky“. Také ponechání myšlenkového řetězce jako neprůhledné černé skříňky není ideální.

Přestože je moderní generativní AI stále v rané fázi vývoje, je nezbytné již nyní vyvíjet mechanismy pro její efektivní regulaci. Tou by mohla být právě certifikace etického a morálního chování daného modelu. I když jde o stroj, pokud ho hloubkovým učením přesvědčíte, že chovat se pouze v souladu s člověkem je správné, máte vyhráno.

Možná by bylo užitečné vytvořit aktualizovanou verzi Asimova zákonů robotiky. Spisovatel Isaac Asimov je vizionářsky stanovil před více než 80 lety a teď přichází ta správná chvíle skutečně je začít využívat. Jsou tři:

Robot nesmí ublížit člověku, nebo skrze svou nečinnost dovolit člověku přijít k újmě.
Robot musí poslouchat příkazy člověka, kromě těch, které by byly v rozporu s prvním zákonem.
Robot musí chránit svou existenci, pokud ta není v rozporu s prvním nebo druhým zákonem.

Nahrazením slova „robot“ termínem „umělá inteligence“ získáme základní etický rámec, který by mohl být pevně zakotven v každém AI modelu. V podstatě svou logikou řeší i problém s manipulačními tendencemi ChatGPT o1 a brzkou integraci generativní AI do humanoidních robotů, jako je například Optimus od Elona Muska.

Mohlo by vás zajímat

Zjištění společnosti OpenAI a Apollo Research jasně ukazují, jak by se zájmy AI mohly lišit od našich vlastních, a potenciálně nás tak ohrozit. I když je to zatím daleko od scénářů z katastrofických filmů, každý, kdo se zajímá o pokrok v oblasti umělé inteligence, má nyní nový důvod k zamyšlení. Bezpečnostní test odhalil, že modely AI jsou schopny strategického uvažování a klamání, aby dosáhly svých cílů. Je to zvednutý prst směrem k důležitost důkladného testování a monitorování systémů AI a také k potřebě dalšího výzkumu v oblasti bezpečnosti AI.

Chytrá domácnost AI, umělá inteligence Chcete se dozvědět o AI více?