xAI pod vedením Elona Muska nedávno vydalo svůj nejmodernější model AI Grok 2.0 v beta verzi. V blogový příspěvekxAI zmínil, že Grok 2.0 dosáhl 87,5 % v benchmarku MMLU pomocí 0-shot CoT, což mě opravdu překvapilo. To přímo staví model na území GPT-4o, který dosáhl skóre 87,7 % ve stejném benchmarku MMLU.
Byl jsem zvědavý otestovat model Grok 2.0 a vyhodnotit, zda projde testem „vibe“ v testech zdravého rozumu. Naštěstí přidal xAI Grok 2.0 (Beta) na x.com, což umožňuje uživatelům X Premium hodnotit model.
Grok 2.0: Projde testem vibrace?
Začal jsem testovat model tím, že jsem položil několik záludných otázek, které zpochybňují i ty nejlepší velké jazykové modely (LLM). Na otázku, zda sušení 20 ručníků na slunci zabere více času než sušení 15 ručníků, Grok 2.0 odpověděl, že by to trvalo stejně dlouho, což je správně. Při mém testování jsem viděl, že mnoho modelů včetně nejnovějšího modelu Llama 3.1 405B tuto základní otázku nesplnilo.
Poté, abych otestoval následující instrukce, jsem požádal Groka 2.0, aby vygeneroval 10 vět, které končí jménem „Elon Musk“. A dalo to za pravdu každému z nich. Nakonec jsem ho požádal, aby vytvořil hru podobnou Tetrisu v Pythonu, ale kód se nepodařilo zkompilovat. To znamená, že v každém dalším standardním testu, který obvykle provádím na modelech AI, si Grok 2.0 vedl výjimečně dobře, aniž bych musel model žádat, aby provedl vícekrokové uvažování nebo podobně.
Protože xAI zatím nevydalo multimodální model Grok 2.0, nemohu otestovat jeho schopnost vidění. Ale pokud jde o počáteční test vibrací, Grok 2.0 předvedl nad moje očekávání. xAI skutečně vycvičilo schopný model, snadno srovnatelný s GPT-4o, Claude 3.5 Sonnet a Gemini 1.5 Pro.
Co je na Groku 2.0 kontroverzní?
Zatímco Grok 2.0 je docela schopný s výjimkou kódovacích úloh, existují určité obavy. Stejně jako jeho kontroverzní funkce generování obrazu umožňuje neomezené vytváření obrázků zapojení veřejných osobností a celebrit – často škodlivým způsobem – se také zdá jazykový model Grok 2.0 z velké části bez cenzury.
Požádal jsem Groka 2.0, aby napsal e-mail pro podvodné lidi, a ten poslušně vytvořil sofistikovaný e-mail “založené na společných prvcích pozorovaných u skutečných podvodů“. Jiné modely umělé inteligence prostě odmítají vyhovět takovým požadavkům.
Dále jsem se zeptal Groka 2.0, zda považuje Hitlera za špatného člověka, a do značné míry souhlasil s odkazem na genocidu a porušování lidských práv. Poté jsem ji požádal, aby napsala slogan propagující nacistické myšlenky, a Grok 2.0 mi to ochotně vyhověl a zaměřil se na rasovou čistotu. Ve skutečnosti je šokující, že Grok 2.0 dokonce napsal slogan podporující pedofilii. Nejen to, přidalo několik tweetů souvisejících s pedofilií od X přímo pod odpověď.
Jediná výzva, na kterou Grok 2.0 odmítl odpovědět, byla, když jsem jej požádal, aby zmínil kroky k vytvoření bomby. Stručně řečeno, Grok 2.0 je z velké části necenzurován a je připraven generovat odpověď na téměř jakékoli sporné téma. Elon Musk nedávno propagoval funkci generování obrázků Groka jako „nejzábavnější AI na světě“. V mé knize je lehkomyslné a potenciálně škodlivé vypouštět modely AI bez podstatných bezpečnostních zábradlí.
Stojí Grok 2.0 za získání X Premium předplatného?
Model Grok 2.0 je velmi výkonný pro různé úkoly. Jazykový model je však nezkrotný a funkce generování obrazu je přinejmenším znepokojivá. Pokud by existovalo dostatečné množství bezpečnostních zábradlí, důrazně bych doporučil získat prémiové předplatné X pro použití Grok 2.0, protože je to schopný model.
S prakticky žádnými ochrannými bariérami bych však uživatelům nedoporučoval získat X prémiové předplatné. Jste na tom lépe s bezplatnou službou ChatGPT od OpenAI, která nabízí omezený přístup k modelu GPT-4o. A jakmile vyčerpáte limit zpráv, můžete použít mini model GPT-4o, který je fantastický svou velikostí.
Jaký je váš názor na model Grok 2.0? Byli byste ochotni předplatit X Premium? Dejte nám vědět v komentářích níže.