Groq: Bleskurychlý AI akcelerátor předčí ChatGPT a Gemini

Groq: Bleskurychlý AI akcelerátor předčí ChatGPT a Gemini

Při používání ChatGPT, zejména u modelu GPT-4, jste si museli všimnout, jak pomalu model reaguje na dotazy. Nemluvě o tom, že hlasoví asistenti vycházející z velkých jazykových modelů, jako je funkce Voice Chat ChatGPT nebo nedávno vydaná Gemini AI, která nahradila Google Assistant na telefonech Android, jsou ještě pomalejší kvůli vysoká latence LLM. To vše se ale pravděpodobně brzy změní díky novému výkonnému inferenčnímu enginu LPU (Language Processing Unit) společnosti Groq.

Groq překvapil svět. Uvědomte si, že to není Grok Elona Muska, což je model umělé inteligence dostupný na X (dříve Twitter). LPU inferenční engine Groq může generovat masivní 500 tokenů za sekundu při spuštění modelu 7B. Při spuštění modelu 70B to klesne na přibližně 250 tokenů za sekundu. To je na hony vzdáleno ChatGPT od OpenAI, který běží na čipech Nvidia poháněných GPU, které nabízejí přibližně 30 až 60 tokenů za sekundu.

Groq je postaven bývalými inženýry TPU společnosti Google

Groq není AI chatbot, ale inferenční čip AI a v oblasti hardwaru AI soutěží s průmyslovými giganty, jako je Nvidia. Bylo spoluzaložil Jonathan Ross v roce 2016který při práci ve společnosti Google spoluzaložil tým na sestavení prvního čipu TPU (Tensor Processing Unit) společnosti Google pro strojové učení.

Později mnoho zaměstnanců opustilo tým Google TPU a vytvořilo Groq vytvářet hardware pro výpočetní techniku ​​nové generace.

Co je LPU Groq?

Důvod, proč je LPU engine Groq tak rychlý ve srovnání se zavedenými hráči, jako je Nvidia, je ten, že je postaven zcela na jiném druhu přístupu.

Podle generálního ředitele Jonathana Rosse nejprve Groq vytvořil softwarový zásobník a kompilátor a poté navrhl křemík. V souladu se softwarovým myšlením byl výkon „deterministický“ – klíčový koncept pro získání rychlých, přesných a předvídatelných výsledků při odvozování AI.

Pokud jde o architekturu LPU společnosti Groq, je podobná jako an čip ASIC (Aplikačně specifický integrovaný obvod) funguje a je vyvinut na 14nm uzlu. Místo toho to není univerzální čip pro všechny druhy složitých úkolů na míru navržený pro konkrétní úkolkterá se v tomto případě zabývá sekvencemi dat ve velkých jazykových modelech. Na druhou stranu CPU a GPU dokážou mnohem více, ale také mají za následek zpožděný výkon a zvýšenou latenci.

Groq je radikálně odlišný druh architektury AI

Mezi novou skupinou začínajících čipů AI Groq vyniká radikálně odlišným přístupem zaměřeným na technologii kompilátoru pro optimalizaci minimalistické, ale vysoce výkonné architektury. Groqova tajná omáčka je toto… pic.twitter.com/Z70sihHNbx— Carlos E. Perez (@IntuitMachine) 20. února 2024

A s přizpůsobeným kompilátorem, který přesně ví, jak funguje instrukční cyklus v čipu, je latence výrazně snížena. Kompilátor vezme instrukce a přiřadí je na správné místo, čímž dále sníží latenci. Abych nezapomněl, každý čip Groq LPU je dodáván s 230 MB on-die SRAM poskytovat vysoký výkon a nízkou latenci s mnohem lepší účinností.

Když se dostaneme k otázce, zda lze čipy Groq použít pro trénování modelů AI, jak jsem řekl výše, je to účelové pro inferencování AI. Neobsahuje žádnou vysokopásmovou paměť (HBM), která je vyžadována pro trénink a dolaďování modelů.

Groq také uvádí, že HBM paměť vede k neurčování celkového systému, což přispívá ke zvýšené latenci. Takže ne, ty neumí trénovat modely AI na LPU Groq.

Testovali jsme LPU Inference Engine společnosti Groq

Můžete zamířit na web Groq (návštěva) a zažijte bleskově rychlý výkon bez nutnosti účtu nebo předplatného. V současné době to hostí dva modely AIvčetně Llama 70B a Mixtral-8x7B. Abychom zkontrolovali výkon LPU Groq, spustili jsme na něm několik výzev Mixtral-8x7B-32K model, který je jedním z nejlepších modelů s otevřeným zdrojovým kódem.

LPU Groq generovalo skvělý výkon při a rychlost 527 tokenů za sekundupřičemž vygenerování 868 tokenů (3846 znaků) na modelu 7B trvá pouhých 1,57 sekundy. U modelu 70B je jeho rychlost snížena na 275 tokenů za sekundu, ale stále je mnohem vyšší než u konkurence.

tokenů chatgpt za sekundu

Abychom porovnali výkon akcelerátoru AI Groq, provedli jsme stejný test na ChatGPT (GPT-3.5, model 175B) a metriky výkonu jsme vypočítali ručně. ChatGPT, který využívá nejmodernější GPU Tensor-core od Nvidie, generoval výstup rychlostí 61 žetonů za sekundupřičemž vygenerování 557 tokenů (3090 znaků) trvá 9 sekund.

žetony gemini za sekundu

Pro lepší srovnání jsme provedli stejný test na bezplatné verzi Gemini (poháněnou Gemini Pro), která běží na akcelerátoru Google Cloud TPU v5e. Google nezveřejnil modelovou velikost modelu Gemini Pro. Jeho rychlost byla 56 žetonů za sekundupřičemž vygenerování 845 tokenů (4428 znaků) trvá 15 sekund.

Ve srovnání s jinými poskytovateli služeb, ray-projekt udělal rozsáhlý Test LLMPerf a zjistili, že Groq fungoval mnohem lépe než ostatní poskytovatelé.

tokenů za sekundu rychlost groq

I když jsme to netestovali, Groq LPU také práce s difúzními modelya nejen jazykové modely. Podle dema dokáže generovat různé styly obrázků při 1024px za sekundu. To je docela pozoruhodné.

Groq vs Nvidia: Co říká Groq?

V a zprávaGroq říká, že jeho LPU jsou škálovatelné a lze je propojit pomocí optického propojení přes 264 žetonů. Lze jej dále škálovat pomocí přepínačů, ale zvýší se tím latence. Podle generálního ředitele Jonathana Rosse společnost vyvíjí clustery, které lze škálovat přes 4 128 čipů, které budou vydány v roce 2025, a je vyvíjen na 4nm procesním uzlu společnosti Samsung.

V benchmarkovém testu, který provedl Groq s použitím 576 LPU na modelu 70B Llama 2, provedl inferenci AI za desetinu času, který zabere cluster GPU Nvidia H100.

Nejen to, GPU Nvidia potřebovaly 10 až 30 joulů energie k vygenerování tokenů v reakci, zatímco Groq pouze trvalo 1 joule až 3 jouly. Stručně řečeno, společnost říká, že Groq LPU nabízejí 10x vyšší rychlost pro úlohy inferencování AI za 1/10 ceny GPU Nvidia.

Co to znamená pro koncové uživatele?

Celkově jde o vzrušující vývoj v oblasti umělé inteligence a se zavedením LPU uživatelé zažijí okamžité interakce se systémy umělé inteligence. Výrazné zkrácení doby vyvozování znamená, že uživatelé mohou hrát s multimodálními systémy okamžitě při používání hlasu, podávání obrázků nebo generování obrázků.

Groq již nabízí přístup k API vývojářům, takže brzy očekávejte mnohem lepší výkon modelů AI. Co si tedy myslíte o vývoji LPU v hardwarovém prostoru AI? Dejte nám vědět svůj názor v sekci komentářů níže.

Viz také:  AI zlepšuje debatu dovednosti s uživatelským kontextem, studie odhaluje