Co je token AI? 13

Co je token AI?

Google

Google nedávno oznámil, že Gemini 1.5 Pro se zvýší z 1 milionu token kontextového okna na 2 miliony. To zní působivě, ale co je to proboha za token?

Ve své podstatě dokonce i chatboti potřebují pomoc se zpracováním textu, který dostanou, aby mohli porozumět konceptům a komunikovat s vámi způsobem jako u lidí. Toho je dosaženo pomocí systému tokenů v generativním prostoru umělé inteligence, který rozkládá data tak, aby byla snáze stravitelná modely umělé inteligence.

Co je token AI?

Infograf zdůrazňující schopnost Gemini s 1 milionem tokenů dlouhého kontextového okna.
Google

Token AI je nejmenší jednotka, na kterou lze slovo nebo frázi rozdělit, když jsou zpracovávány velkým jazykovým modelem (LLM). Tokeny představují slova, interpunkční znaménka nebo podslova, která umožňují modelům efektivně analyzovat a interpretovat text a následně generovat obsah podobným způsobem založeným na jednotkách. Je to podobné tomu, jak počítač převádí data na nuly a jedničky Unicode pro snadnější zpracování. Tokeny umožňují modelu určit vzor nebo vztah mezi slovy a frázemi, takže mohou předvídat budoucí termíny a reagovat v kontextu vaší výzvy.

Když zadáte výzvu, fráze a slova jsou příliš dlouhé na to, aby je chatbot mohl interpretovat tak, jak jsou – musí být rozděleny na menší části, než LLM vůbec může požadavek zpracovat. Jsou převedeny na tokeny, poté je žádost odeslána a analyzována a je vám vrácena odpověď.

Proces přeměny textu na tokeny se nazývá tokenizace. Je jich mnoho tokenizační metody, které se mohou lišit v závislosti na variantách, včetně instrukcí slovníku, kombinací slov, jazyka atd. Například metoda tokenizace založená na mezerách rozděluje slova na základě mezer mezi nimi. Fráze „Venku prší“ by byla rozdělena na žetony „Je“, „prší“, „venku“.

Jak fungují tokeny AI?

The obecná konverze tokenů členění následované v generativním prostoru umělé inteligence znamená, že jeden token se rovná přibližně čtyřem znakům v angličtině – nebo 3/4 slova – a 100 tokenů se rovná přibližně 75 slovům. Jiné převody naznačují, že jedna až dvě věty odpovídají přibližně 30 tokenům, jeden odstavec se rovná přibližně 100 tokenům a 1 500 slov se rovná přibližně 2 048 tokenům.

Ať už jste obecný uživatel, vývojář nebo podnik, program umělé inteligence, který používáte, využívá k plnění svých úkolů tokeny. Jakmile začnete platit za generativní služby AI, platíte za tokeny, abyste službu udrželi na optimální úrovni.

Většina generativních značek AI má také základní pravidla týkající se toho, jak tokeny fungují na jejich modelech AI. Mnoho společností má omezení tokenů, která omezují počet tokenů, které lze zpracovat v jednom tahu. Pokud je požadavek větší než limit tokenů na LLM, nástroj nebude schopen dokončit požadavek v jednom kole. Pokud například vložíte článek o 10 000 slovech k překladu do značky GPT s limitem 4 096 tokenů, nebude jej moci plně zpracovat a poskytnout podrobnou odpověď, protože takový požadavek by vyžadoval alespoň 15 000 tokenů.

Ve vztahu :  Top 10 způsobů, jak opravit Discord Lag na Windows a Mac

Společnosti však rychle rozšiřují možnosti svých LLM a přidávají nové verze omezení tokenů. Model BERT společnosti Google založený na výzkumu měl maximální délku vstupu 512 tokenů. OpenAI GPT-3.5 LLM, který provozuje bezplatnou verzi ChatGPT, má maximálně 4 096 vstupních tokenů, zatímco jeho GPT-4 LLM, který provozuje placenou verzi ChatGPT, má max. 32 768 vstupních tokenů.

To odpovídá přibližně 64 000 slovům nebo 50 stránkám textu. Google Gemini 1.5 Pro, který poskytuje zvukové funkce pro AI Studio značky, má standardní kontextové okno se 128 000 tokeny. Claude 2.1 LLM má limit až 200 000 kontextových tokenů. To odpovídá přibližně 150 000 slovům nebo 500 stránkám textu.

Jaké jsou různé typy tokenů AI?

Existují několik typů tokenů používané v generativním prostoru AI, které umožňují LLM identifikovat nejmenší jednotky dostupné pro analýzu. Zde jsou některé z hlavních tokenů, které jsou zajímavé pro model AI.

  • Slovní žetony jsou slova, která představují samostatné jednotky, jako je „pták“, „dům“ nebo „televize“.
  • Tokeny podslov jsou slova, která lze zkrátit na menší jednotky, jako je rozdělení úterý na „úterý“ a „den“.
  • Interpunkční žetony nahrazují interpunkční znaménka, včetně čárek (,), teček (.) a dalších.
  • Číselné žetony nahrazují číselné údaje včetně čísla „10“.
    Speciální tokeny mohou zaznamenat několik jedinečných instrukcí při provádění dotazů a trénovacích dat.

Jaké jsou výhody tokenů?

Tokeny mají v generativním prostoru umělé inteligence několik výhod. Primárně fungují jako spojovací článek mezi lidským jazykem a počítačovým jazykem při práci s LLM a dalšími procesy AI. Tokeny pomáhají modelům zpracovávat velké množství dat najednou, což je výhodné zejména v podnikových prostorech, které využívají LLM. Společnosti mohou pracovat s limity tokenů, aby optimalizovaly výkon modelů AI. Jakmile budou představeny budoucí verze LLM, tokeny umožní modelům mít větší paměť prostřednictvím vyšších limitů nebo kontextových oken.

Další výhody tokenů spočívají v aspektech školení LLM. Vzhledem k tomu, že se jedná o malé jednotky, lze je použít pro usnadnění optimalizace rychlosti zpracování dat. Díky prediktivní povaze tokenů lépe rozumí konceptům a postupem času vylepšují sekvence. Tokeny pomáhají při implementaci multimodálních aspektů, jako jsou obrázky, videa a zvuk, do LLM spolu s chatboty pro převod textu na řeč.

Tokeny také nějaké mají bezpečnost dat a výhody z hlediska nákladů díky jejich nastavení Unicode, které chrání důležitá data a zkracuje delší text do zjednodušené verze.