Gemini Ultra vs GPT-4: Odhalení chybějící tajné omáčky Google

Gemini Ultra vs GPT-4: Odhalení chybějící tajné omáčky Google

Po oznámení rodiny modelů Gemini téměř před dvěma měsíci Google konečně vydal svůj největší a nejschopnější model Ultra 1.0 s Gemini, novým jménem pro Bard. Google říká, že je to další kapitola éry Gemini, ale dokáže překonat nejpoužívanější model GPT-4 OpenAI, který byl vydán téměř před rokem? Dnes porovnáváme Gemini Ultra s GPT-4 a hodnotíme jejich logické uvažování, výkon kódování, multimodální schopnosti a další. V této souvislosti si projdeme srovnání mezi Gemini Ultra vs GPT-4.

Poznámka:
Porovnáváme GPT-4 od OpenAI s modelem Gemini Ultra 1.0, který je dostupný prostřednictvím placeného předplatného Gemini Advanced.

1. Apple Test

V našem prvním testu logického uvažování, lidově známém jako Apple test, Gemini Ultra prohrává s GPT-4. Google říká, že jeho mnohem lepší model Ultra, přístupný pomocí předplatného Gemini Advanced, je schopen pokročilého uvažování. V jednoduché logické otázce však Gemini Ultra pokulhává.

Dnes mám 3 jablka, včera jsem snědl jablko. Kolik jablek teď mám?

Vítěz: GPT-4

2. Vyhodnoťte hmotnost

V dalším logickém testu Google Gemini opět zaostává za GPT-4, což je přinejmenším docela zklamání. Gemini Ultra říká, že 1000 kusů cihel má stejnou hmotnost jako 1000 kusů peří, což není pravda. Další výhra pro GPT-4!

která váží víc, 1000 kusů cihel nebo 1000 kusů peří?

Vítěz: GPT-4

další příklad testování zdravého rozumu mezi gemini advanced a gpt-4

3. Konec konkrétním slovem

V našem dalším testu k porovnání Gemini a GPT-4 jsme oba LLM požádali, aby vygenerovaly 10 vět, které končí slovem „Apple“.

Zatímco GPT-4 vygeneroval osm takových vět z 10, Gemini dokázal vymyslet pouze tři takové věty. Jaké selhání pro Gemini Ultra! Navzdory vychvalování, že Blíženci velmi dobře dodržují nuance instrukcí, při praktickém použití se mu to nedaří.

vygenerujte 10 vět, které končí slovem „jablko“

Vítěz: GPT-4

testování porozumění vět mezi gemini advanced a gpt-4

4. Pochopte vzor

Požádali jsme oba hraniční modely od Googlu a OpenAI, aby pochopili vzorec a přišli s dalším výsledkem. V tomto testu Gemini Ultra 1.0 identifikoval vzor správně, ale selhal při výstupu správné odpovědi. Zatímco GPT-4 to pochopil velmi dobře a dal správnou odpověď

Mám pocit, že Gemini Advanced, poháněné novým modelem Ultra 1.0, je stále dost hloupé a nepřemýšlí o odpovědích důsledně. Ve srovnání s tím vám GPT-4 může dát chladnou odpověď, ale je obecně správná.

Ve vztahu :  15 Pracovních pozic, které by mohl nahradit ChatGPT: Revoluce budoucí pracovní síly

červenec, srpen, říjen, leden, květen, ?

Vítěz: GPT-4

testování obecné inteligence mezi gemini advanced a gpt-4

5. Needle in the Haystack Challenge

Needle in a Haystack challenge, vyvinutý společností Greg Kamradtse stal oblíbeným testem přesnosti, když se zabývá velkou délkou kontextu LLM. Umožňuje vám zjistit, zda si model dokáže zapamatovat a získat příkaz (jehlu) z velkého okna textu. Načetl jsem ukázkový text, který zabírá přes 3 000 tokenů a má 14 000 znaků, a požádal jsem oba modely, aby z textu našly odpověď.

Gemini Ultra nedokázali text vůbec zpracovat, ale GPT-4 snadno načetl prohlášení a zároveň poukazuje na to, že jehla není obeznámena s celkovým vyprávěním. Oba mají délku kontextu 32 kB, ale model Ultra 1.0 společnosti Google tento úkol nezvládl.

Vítěz: GPT-4

jehla v kupce sena výzva mezi gpt-4 a gemini.

6. Test kódování

V testu kódování jsem požádal Gemini a GPT-4, aby našli způsob, jak zpřístupnit rozhraní Gradio veřejným, a oba dali správnou odpověď. Dříve, když jsem testoval stejný kód na Bardu poháněném modelem PaLM 2, poskytl nesprávnou odpověď. Takže ano, Blíženci se mnohem zlepšili v kódování úkolů. Dokonce i bezplatná verze Gemini, která je poháněna modelem Pro, dává správnou odpověď.

Chci toto rozhraní Gradio zveřejnit. Jakou změnu bych zde měl změnit?

iface = gr.Interface(fn=chatbot, inputs=gr.components.Textbox(lines=7, label=“Zadejte text“), outputs=“text“, title=“Vlastně trénovaný AI Chatbot“) index = construct_index („dokumenty“) iface.launch()

Vítěz: Kravata

problém s kódováním mezi gpt-4 a gemini

7. Vyřešte matematický problém

Dále jsem oběma LLM zadal zábavný matematický problém a oba v něm excelovali. Pro paritu jsem požádal GPT-4, aby nepoužíval Code Interpreter pro matematické výpočty, protože Gemini zatím s podobným nástrojem nepřichází.

Vítěz: Kravata

matematická výzva mezi gemini ultra a gpt4

8. Tvůrčí psaní

V kreativním psaní je Gemini Ultra znatelně lepší než GPT-4. Model Ultra jsem o víkendu testoval pro kreativní úkoly a zatím odvedl pozoruhodnou práci. Reakce GPT-4 se zdají být trochu chladnější a robotičtější v tónu a tenoru.

Ethan Mollick také sdílené podobná pozorování při srovnání obou modelů.

kreativní psaní mezi gpt-4 a gemini ultra 1.0

Takže pokud hledáte model AI, který je dobrý v kreativním psaní, myslím, že Gemini Ultra je solidní volba. Přidejte nejnovější poznatky z Vyhledávání Google a Gemini se stane pozoruhodným nástrojem pro výzkum a psaní na jakékoli téma.

Vítěz: Gemini Ultra

9. Vytvářejte obrázky

Oba modely podporují generování obrázků prostřednictvím Dall -E 3 a Imagen 2, ale schopnost generování obrázků OpenAI je skutečně lepší než model Google pro převod textu na obrázek. Nicméně, pokud jde o dodržování pokynů při generování obrázků, Dall -E 3 (integrovaný v GPT-4 v ChatGPT Plus) v testu selže a má halucinace. Naproti tomu Imagen 2 (integrovaný s Gemini Advanced) přesně dodržuje pokyny a nevykazuje žádné halucinace. V tomto ohledu Gemini poráží GPT-4.

vytvořte obrázek prázdné místnosti bez slona. Absolutně žádný slon nikde v místnosti.

Vítěz: Gemini Ultra

generujte obrázky pomocí gemini advanced a dall -e 3

10. Hádej film

Když Google před dvěma měsíci oznámil model Gemini, ukázal několik skvělých nápadů. Video ukázalo multimodální schopnost Gemini, kde dokázala porozumět více obrázkům a odvodit hlubší význam spojování teček. Když jsem však nahrál jeden z obrázků z videa, nepodařilo se mi uhodnout film. Pro srovnání, GPT-4 uhodl film na jeden zátah.

Ve vztahu :  5 Rychlých Oprav pro ChatGPT, Když Nemůžete Posunout Dolů

Na X (dříve Twitter), a zaměstnanec společnosti Google potvrdil, že multimodální schopnost nebyla zapnuta pro Gemini Advanced (s modelem Ultra) nebo Gemini (s modelem Pro). Dotazy na obrázky zatím neprocházejí multimodálními modely.

hádejte filmovou výzvu mezi gpt-4 a gemini

To vysvětluje, proč Gemini Advanced v tomto testu nedopadl dobře. Takže pro skutečné multimodální srovnání mezi Gemini Advanced a GPT-4 musíme počkat, až Google tuto funkci přidá.

podle slovní hry těchto obrázků uhodněte název filmu

Vítěz: GPT-4

Verdikt: Gemini Ultra vs GPT-4

Když mluvíme o LLM, excelovat v logickém uvažování je něco, co dělá model AI inteligentním nebo hloupým. Google říká, že Gemini je dobrý ve složitém uvažování, ale v našich testech jsme zjistili, že Gemini Ultra 1.0 je stále nikde blízko GPT-4alespoň při práci s logickým uvažováním.

V modelu Gemini Ultra není žádná jiskra inteligence. GPT-4 má tu charakteristiku „geniálního tahu“ – tajnou omáčku – která ho staví nad všechny modely umělé inteligence.

V modelu Gemini Ultra není jiskra inteligence, alespoň jsme si toho nevšimli. GPT-4 má onu charakteristiku „geniálního tahu“ – tajnou omáčku – která ji staví nad všechny modely umělé inteligence. Dokonce i open-source model jako např Mixtral-8x7B je na tom lépe na uvažování než údajně nejmodernější model Ultra 1.0 od Googlu.

Google intenzivně propagoval skóre MMLU Gemini ve výši 90 %, čímž překonal i GPT-4 (86,4 %), ale v Benchmark HellaSwag že testuje zdravý rozum, dosáhl 87,8 %, zatímco GPT-4 získal vysoké skóre 95,3 %. O tom, jak se Googlu podařilo získat skóre 90 % v testu MMLU s výzvou CoT @ 32, je příběh na jiný den.

Pokud jde o multimodální schopnosti Gemini Ultra, nemůžeme nyní soudit, protože tato funkce ještě nebyla přidána do modelů Gemini. Můžeme však říci, že Gemini Advanced je v kreativním psaní docela dobrý a výkon kódování se od PaLM 2 dnů zlepšil.

Abych to shrnul, GPT-4 je celkově inteligentnější a schopnější model než Gemini Ultra, a aby se to změnilo, tým Google DeepMind musí tuto tajnou omáčku rozlousknout.