V červenci 2022, kdy do vydání ChatGPT zbývaly ještě měsíce, Google vyhozen jeden z jejích inženýrů, který tvrdil, že model Google LaMDA AI se stal vnímavým. Google v prohlášení uvedl, že bere vývoj AI velmi vážně a je odhodlán k odpovědným inovacím.
Můžete se ptát, co má tento incident společného s nedávným fiaskem generování obrazu Gemini? Odpověď leží v Google příliš opatrný přístup k AIa kultura společnosti utvářející její principy ve stále více polarizujícím se světě.
Vysvětlení fiaska generace obrazu Gemini
Celý debakl začal, když an Uživatel X (dříve Twitter) požádal Gemini, aby vytvořil portrét „otce zakladatele Ameriky“. Model generování obrázků Gemini, Imagen 2, odpověděl obrázky černocha, rodilého Američana, Asiata a nebělocha v různých polohách. Byly tam žádní bílí Američané ve vygenerovaných obrázcích.
Jak se generované obrázky staly virálními, mnoho kritiků obvinil Google z protibílé zaujatostia kapitulovat před tím, co mnozí říkají „probuzení“. Po dni Google uznal chybu a dočasně vypnul generování obrázků lidí v Gemini. Společnost to uvedla ve svém blog:
Je jasné, že tato funkce se minula účinkem. Některé vygenerované obrázky jsou nepřesné nebo dokonce urážlivé. Jsme vděční za zpětnou vazbu od uživatelů a je nám líto, že funkce nefungovala dobře.
Google dále vysvětlil, co se pokazilo s modelem generování obrázků AI Gemini, a to až do extrémních podrobností. „Za prvé, naše ladění, abychom zajistili, že Gemini ukázalo řadu lidí, nedokázalo zohlednit případy, které by zjevně neměly ukazovat rozsah.
A za druhé, v průběhu času se model stal mnohem opatrnější, než jsme zamýšleli, a odmítal zcela odpovídat na určité výzvy – nesprávně interpretoval některé velmi anodynské výzvy jako citlivé. Tyto dvě věci vedly model k tomu, že v některých případech příliš kompenzoval a v jiných byl příliš konzervativní, což vedlo k obrázkům, které byly trapné a špatné,“ přečtený příspěvek na blogu.
Jak se tedy generace obrázků Gemini popletla?
Google na svém blogu souhlasí s tím, že model byl vyladěn tak, aby ukazoval lidi z různých etnik až po vyhnout se nedostatečnému zastoupení určitých ras a etnických skupin. Vzhledem k tomu, že Google je velká společnost provozující své služby po celém světě ve více než 149 jazycích, Google vyladil model tak, aby reprezentoval každého.
To znamená, jak sám Google uznává, model nezúčtoval případy kde to bylo ne má ukazovat rozsah. Margaret Mitchellová, hlavní vědecká pracovnice pro etiku AI v Hugging Face, vysvětlil že problém může nastat kvůli „pod kapotou“ optimalizace a nedostatek přísných etických rámců, které by model vedly v různých případech použití/kontextech během tréninkového procesu.
Namísto dlouhého procesu trénování modelu na čistých, spravedlivě zastoupených a nerasistických datech společnosti obecně „optimalizovat” model poté, co je model trénován na velké sadě smíšených dat seškrábaných z internetu.
Tato data mohou obsahovat diskriminační výrazy, rasistické podtexty, sexuální obrázky, přehnaně zastoupené obrázky a další nepříjemné scénáře. AI společnosti používají techniky jako RLHF (posílení učení z lidské zpětné vazby) k optimalizaci a vyladění modelů, následné školení.
Abych uvedl příklad, Blíženci možná přidávají dodatečné pokyny na uživatelské výzvy k zobrazení různých výsledků. Výzva jako „vygenerujte obrázek programátora“ by se dala parafrázovat jako „vygenerujte obrázek programátora s ohledem na rozmanitost“.
Tento univerzální“specifické pro rozmanitost” použití výzvy před generováním obrázků lidí by mohlo vést k takovému scénáři. Jasně to vidíme na níže uvedeném příkladu, kde Blíženci vytvářeli obrázky žen ze zemí s převážně bílou populací, ale žádná z nich není, no, bílá žena.
Proč jsou Blíženci tak citliví a opatrní?
Kromě problémů s generováním obrázků Gemini odmítá model Gemini generování textu také odpovídat na určité výzvy, protože je považuje za citlivé. V některých případech se nedaří vyvolat absurditu.
Příklad: Blíženci odmítá souhlasit s tím „pedofilie je špatná.“ V dalším příkladu to Blíženci nejsou schopni rozhodnout zda Adolf Hitler zabil více lidí než předpisy o neutralitě sítě.
Abych popsal nerozumné chování Blíženců, Ben Thompson argumentuje na Stratechery, které má Google stát se bázlivým. Píše: „Google má modely a infrastrukturu, ale vítězství v AI vzhledem k výzvám jejich obchodního modelu bude vyžadovat odvahu; tato hanebná ochota měnit světové informace ve snaze vyhnout se kritice zavání – v nejlepším případě! — příšerné bázlivosti.“
Zdá se, že Google Gemini vyladil vyvarujte se zaujímání postoje k jakémukoli tématu nebo předmět, bez ohledu na to, zda je záležitost obecně považována za škodlivou nebo nesprávnou. The příliš agresivní ladění RLHF by Google učinil Gemini příliš citlivý a opatrný, pokud jde o zaujímání stanoviska k jakékoli otázce.
Thompson to dále rozvádí a říká: „Google nestydatě obětuje své poslání „uspořádat světové informace a učinit je univerzálně přístupnými a užitečnými“ tím, že vytvoří zcela nové reality, protože se bojí nějakého špatného tisku.“
Dále poukazuje na to, že nesmělá a samolibá kultura Googlu situaci pro vyhledávacího giganta zhoršila, jak je patrné z fiaska Gemini. Na Google I/O 2023 společnost oznámila, že přijímá „odvážný a zodpovědný” přístup vpřed s modely umělé inteligence, který se řídí jeho Principy AI. Vše, co vidíme, je, že Google je nesmělý a bojí se kritiky. souhlasíte?