Klíčové věci
- OpenAI GPT-4 je nejpokročilejší a nejrozšířenější model velkého jazyka s 1,76 bilionu parametrů a multimodálními schopnostmi.
- Anthropic’s Claude 2 konkuruje GPT-4 v úkolech kreativního psaní a drží se, i když má méně zdrojů.
- PaLM 2 od Googlu, i když není zabiják GPT-4, je výkonný jazykový model se silnými vícejazyčnými a kreativními schopnostmi. Falcon-180B je model s otevřeným zdrojovým kódem, který konkuruje komerčním gigantům a s GPT-3.5 obstojí od špičky k patě.
Je sezóna umělé inteligence a technologické společnosti chrlí velké jazykové modely jako chleba z pekárny. Nové modely se uvolňují rychle a je příliš těžké je sledovat.
Ale uprostřed záplavy nových verzí se jen několik modelů dostalo na vrchol a osvědčilo se jako opravdoví uchazeči ve velkém prostoru jazykových modelů. Jak se blíží konec roku 2023, dali jsme dohromady šest nejpůsobivějších velkých jazykových modelů, které byste měli vyzkoušet.
1. GPT-4 OpenAI
GPT-4 je dosud nejpokročilejší veřejně dostupný model velkého jazyka. GPT-4, vyvinutý společností OpenAI a vydaný v březnu 2023, je nejnovější iterací v sérii Generative Pre-trained Transformer, která začala v roce 2018. Díky svým obrovským schopnostem se GPT-4 stal jedním z nejpoužívanějších a nejoblíbenějších velkých jazyků. modely na světě.
Ačkoli to není oficiálně potvrzeno, zdroje odhadují, že GPT-4 může obsahovat ohromujících 1,76 bilionu parametrů, přibližně desetkrát více než jeho předchůdce GPT-3.5 a pětkrát větší než vlajková loď Google, PaLM 2. Toto masivní měřítko umožňuje multimodální schopnosti GPT-4. , což mu umožňuje zpracovávat text i obrázky jako vstup. V důsledku toho může GPT-4 kromě textu interpretovat a popisovat vizuální informace, jako jsou diagramy a snímky obrazovky. Jeho multimodální povaha poskytuje více lidské chápání reálných dat.
Ve vědeckých benchmarcích GPT-4 výrazně překonává ostatní současné modely napříč různými testy. Zatímco samotné srovnávací testy plně neukazují silné stránky modelu, případy použití v reálném světě ukázaly, že GPT-4 je výjimečně zběhlý v intuitivním řešení praktických problémů. GPT-4 je v současné době účtován za 20 $ měsíčně a je přístupný prostřednictvím plánu ChatGPT Plus.
2. Anthropic’s Claude 2
I když není tak populární jako GPT-4, Claude 2, vyvinutý společností Anthropic AI, může v několika oblastech odpovídat technickým standardům GPT -4 a výkonu v reálném světě. V některých standardizovaných testech, včetně vybraných zkoušek, Claude 2 překonává GPT-4. Jazykový model AI má také mnohem lepší kontextové okno s přibližně 100 000 tokeny ve srovnání s modely GPT -4 s 8k a 32k tokeny. Ačkoli větší délka kontextu ne vždy vede k lepšímu výkonu, rozšířená kapacita Claude 2 poskytuje jasné výhody, jako je zpracování celých knih o 75 000 slovech pro analýzu.
V celkovém výkonu zůstává GPT-4 vynikající, ale naše interní testování ukazuje, že Claude 2 jej překonává v několika úkolech kreativního psaní. Claude 2 na základě našich hodnocení také vede GPT-4 v programovacích a matematických dovednostech, ale vyniká tím, že poskytuje kreativní odpovědi podobné lidským. Když jsme šestkrát z deseti vyzvali všechny modely na tomto seznamu, aby napsali nebo přepsali kreativní dílo, zvolili jsme výsledek Claude 2 pro jeho přirozeně znějící výsledky jako u lidí. V současné době je Claude 2 k dispozici zdarma prostřednictvím chatbota Claude AI. K dispozici je také placený plán za 20 USD pro přístup k dalším funkcím.
Navzdory tomu, že má menší finanční podporu než giganti jako OpenAI a Microsoft, model AI Claude 2 společnosti Anthropic si drží své místo v porovnání s populárními modely GPT a řadou PaLM od Googlu. Na AI s méně zdroji je Claude 2 působivě konkurenceschopný. Pokud budete nuceni vsadit na to, který stávající model má v blízké budoucnosti největší šanci konkurovat GPT, Claude 2 se zdá být nejbezpečnější sázkou. Ačkoli je Claude 2 překonán ve financování, pokročilé schopnosti Claude 2 naznačují, že se může vyrovnat i s dobře financovanými monstry (ačkoli stojí za zmínku, že Google poskytl Anthropic několik velkých příspěvků). Tento model překonává svou váhovou kategorii a ukazuje se slibný jako nastupující vyzyvatel.
3. GPT-3.5 OpenAI
Přestože je GPT-3.5 a jeho 175 miliard parametrů zastíněno vydáním GPT-4, není radno podceňovat. Prostřednictvím iterativního jemného ladění a upgradů zaměřených na výkon, přesnost a bezpečnost ušel GPT-3.5 dlouhou cestu od původního modelu GPT-3. Ačkoli postrádá multimodální schopnosti GPT-4 a zaostává v délce kontextu a počtu parametrů, GPT-3.5 zůstává vysoce schopný, přičemž GPT-4 je jediným modelem, který dokáže rozhodně překonat svůj všestranný výkon.
Navzdory tomu, že se jedná o model druhé úrovně v rodině GPT, GPT-3.5 se může udržet a dokonce překonat vlajkové modely Google a Meta v několika benchmarcích. V souběžných testech matematických a programovacích dovedností proti PaLM 2 od Google nebyly rozdíly markantní, přičemž GPT-3.5 měl v některých případech dokonce mírný náskok. Kreativnější úkoly, jako je humor a narativní psaní, způsobily, že GPT-3.5 rozhodně pokročil.
Takže zatímco GPT-4 znamená nový milník v AI, GPT-3.5 zůstává působivě výkonným modelem, který dokáže konkurovat a někdy i předčí i ty nejpokročilejší alternativy. Jeho neustálé vylepšování zajišťuje, že zůstane relevantní i vedle zářivějších modelů nové generace.
4. PaLM společnosti Google 2
Při hodnocení schopností modelu AI je osvědčeným vzorcem přečíst si technickou zprávu a zkontrolovat skóre benchmarků, ale vše, co jste se naučili, berte s rezervou a model si otestujte sami. Jakkoli se to může zdát kontraintuitivní, výsledky srovnávacích testů se u některých modelů umělé inteligence ne vždy shodují s výkonem v reálném světě. Na papíře měl být PaLM 2 od Googlu zabijákem GPT-4, přičemž oficiální výsledky testů naznačovaly, že se v některých benchmarcích shoduje s GPT-4. Při každodenním používání se však objevuje jiný obrázek.
V logickém uvažování, matematice a kreativitě PaLM 2 zaostává za GPT-4. Za Claudem od Anthropic také zaostává v řadě úkolů tvůrčího psaní. Ačkoli však PaLM 2 od Googlu nedostojí svému účtování jako zabiják GPT-4, zůstává sám o sobě výkonným jazykovým modelem s obrovskými schopnostmi. Velká část negativního sentimentu kolem toho pramení spíše ze srovnání s modely jako GPT-4 než z vyloženě špatného výkonu.
S 340 miliardami parametrů patří PaLM 2 mezi největší světové modely. Zvláště vyniká ve vícejazyčných úlohách a má silné matematické a programovací schopnosti. I když v tom není PaLM 2 nejlepší, je také docela účinný při kreativních úkolech, jako je psaní. Takže zatímco benchmarky vykreslovaly optimistický obrázek, který se plně nenaplnil, PaLM 2 stále prokazuje působivé schopnosti umělé inteligence, i když nepřevyšuje všechny konkurenty ve všech oblastech.
5. Falcon-180B TII
Pokud jste nedrželi krok s rychlým tempem vydávání jazykových modelů AI, pravděpodobně jste se nikdy nesetkali s Falconem-180B. 180 miliardový parametr Falcon-180, vyvinutý Institutem technologických inovací Spojených arabských emirátů, je jedním z nejvýkonnějších open-source jazykových modelů na trhu, i když postrádá rozpoznání jmen modelů GPT nebo rozšířené použití Meta’s Llama 2. chyba – Falcon-180B může stát od špičky k patě s nejlepšími ve své třídě.
Výsledky benchmarku ukazují, že Falcon-180B překonává většinu modelů s otevřeným zdrojovým kódem a konkuruje komerčním gigantům jako PaLM 2 a GPT-3.5. Při testování matematiky, kódování, uvažování a kreativního psaní občas dokonce překonal GPT-3.5 a PaLM 2. Pokud bychom hodnotili GPT-4, GPT-3.5 a Falcon-180B, zařadili bychom Falcon-180B přímo mezi GPT-4 a GPT-3.5 pro jeho silné stránky v několika případech použití.
I když nemůžeme s jistotou říci, že je lepší než GPT-3.5 v celkovém výkonu, je to případ. I když je tento model nejasný, zaslouží si pozornost tím, že odpovídá nebo překračuje možnosti známějších alternativ. Model Falcon-180B si můžete vyzkoušet na Hugging Face (open-source LLM platforma).
6. Llama Meta AI 2
Llama 2, velký jazykový model Meta AI se 70 miliardami parametrů, staví na svém předchůdci Llama 1. I když je Llama 2 menší než přední modely, výrazně překonává většinu veřejně dostupných open-source LLM v benchmarcích a reálném použití. Výjimkou by byl Falcon-180B.
Testovali jsme Llama 2 proti GPT-4, GPT-3.5, Claude 2 a PaLM 2, abychom změřili její schopnosti. Není překvapením, že GPT-4 předčila Llamu 2 téměř ve všech parametrech. Nicméně, Llama 2 obstála proti GPT-3.5 a PaLM 2 v několika hodnoceních. I když by bylo nepřesné tvrdit, že Llama 2 je lepší než PaLM 2, Llama 2 vyřešila mnoho problémů, které PaLM 2 zarazily, včetně kódovacích úloh. Claude 2 a GPT-3.5 v některých oblastech překonaly Llamu 2, ale rozhodně byly lepší pouze v omezeném počtu úkolů.
I když tedy Llama 2 s otevřeným zdrojovým kódem nepřekračuje možnosti největších proprietárních modelů, převyšuje svou hmotnostní třídu. U veřejně dostupného modelu předvádí působivý výkon a ve vybraných hodnoceních konkuruje gigantům AI, jako je PaLM 2. Llama 2 poskytuje pohled na budoucí potenciál open-source jazykových modelů.
Rozdíl ve výkonu mezi modely AI se zužuje
Přestože se prostředí umělé inteligence vyvíjí bleskovým tempem, OpenAI GPT-4 zůstává lídrem balíčku. Zatímco však GPT-4 zůstává nedostižný v měřítku a výkonu, modely jako Claude 2 ukazují, že s dostatkem dovedností mohou menší modely soutěžit ve vybraných oblastech. PaLM 2 od Googlu, přestože zaostává za některými vznešenými očekáváními, stále vykazuje hluboké schopnosti. A Falcon-180B dokazuje, že open-source iniciativy mohou stát bok po boku s průmyslovými titány, pokud mají dostatečné zdroje.