Klíčové věci
- LAM jsou systémy umělé inteligence, které dokážou porozumět lidským vstupům a provádět odpovídající akce na základě schopností LLM.
- LAM mohou provádět složité úkoly, jako je objednávka kávy nebo rezervace hotelu.
- Zatímco LAM jsou příslibem do budoucna, ještě nejsou připraveny na široké použití, jak dokazuje selhání zařízení Rabbit’s r1 při plnění mnoha inzerovaných funkcí.
Vzestup generativních chatbotů s umělou inteligencí zpopularizoval termín „velký jazykový model“, což je základní technologie umělé inteligence fungující v zákulisí. Velké jazykové modely (LLM) generují výstup na základě předpokládané sady jazyků v reakci na vstup uživatele, takže to vypadá, jako by umělá inteligence byla schopna myslet sama za sebe.
LLM však nejsou jedinými velkými modely ve městě; velké akční modely (LAM) by mohly být další velkou věcí v AI.
Co je to velký akční model (LAM)?
LAM je systém umělé inteligence schopný porozumět lidskému vstupu a provést odpovídající akci. Jedná se o mírně odlišný přístup k systémům AI, které se zaměřují výhradně na generování odpovědí. Termín „velký akční model“ poprvé představila společnost Rabbit Inc., vývojáři zařízení rabbit r1. V úvodním videu společnosti rabbit r1 se říká, že LAM je nový základní model, který pomáhá převést umělou inteligenci od slov k činům.
LAM jsou trénováni na velkých souborech dat uživatelských akcí; učí se tedy napodobováním lidských činů nebo předváděním. Prostřednictvím demonstrací mohou LAM porozumět a procházet uživatelská rozhraní různých webových stránek nebo mobilních aplikací a provádět konkrétní akce na základě vašich pokynů. Podle Rabbita toho může LAM dosáhnout, i když se rozhraní mírně změní.
LAM si můžete představit jako rozšíření stávajících schopností LLM. Zatímco LLM generuje textový nebo mediální výstup založený na vstupu uživatele předpovídáním dalšího slova nebo tokenu (Položíte otázku a LLM poskytne textový nebo mediální výstup), LAM to posouvají dále tím, že přidávají možnost provádět složité akce vaším jménem. .
Co umí LAM?
Všechny LAM jsou o provádění složitých akcí vaším jménem. Nicméně kritickým bodem, který je třeba poznamenat, je schopnost provádět složité akce. Díky tomu jsou LAM užitečnější při provádění pokročilých úkolů, ale to neznamená, že nemohou provádět jednodušší akce.
Teoreticky to znamená, že můžete například říci LAM, aby udělal něco vaším jménem, jako je objednávka kávy z nedalekého Starbucks, jízda z Uberu a dokonce i rezervace hotelu. Liší se to tedy od provádění jednoduchých úkolů, jako je žádat Asistenta Google, Siri nebo Alexu, aby rozsvítil vaši televizi nebo osvětlení obývacího pokoje.
Podle vize sdílené společností Rabbit Inc. má LAM pod kapotou přístup k příslušné webové stránce nebo aplikaci, jako je Uber, a procházet jejím rozhraním, aby provedl akci, například objednal jízdu nebo ji zrušil, pokud si to rozmyslíte.
LAM uspějí LLM, ale nejsou (zatím) připraveny
Koncept LAM je vzrušující, možná ještě více než LLM. LAM budou po generativní AI budoucností, což nám umožní kompenzovat všední úkoly a soustředit se na jiné naplňující činnosti. Jakkoli se to zdá vzrušující, LAM ještě nejsou připraveny.
První komerční produkt, který sliboval využít LAM (králík r1), plně nesplnil svůj marketingový příslib provádění akcí jménem svých uživatelů. Zařízení ve svém hlavním prodejním bodu selhalo tak okázale, že jej mnoho recenzí z první ruky označilo za docela zbytečné.
Ještě horší je, že vyšetřování Coffeezilla, YouTubera, ve spolupráci s vybranou skupinou softwarových inženýrů s přístupem k části kódové základny r1, zjistilo, že Rabbit používal k provádění akcí místo LAM skripty Playwright. Takže místo toho, aby zařízení spouštělo jedinečný model umělé inteligence, ve skutečnosti pouze spouštělo spoustu příkazů stylu If > Then; daleko od slíbeného LAM.
Pokud existuje něco, co si můžete vzít z Rabbitova zařízení r1, ano, vize tam je. Před realizací je však potřeba pracovat, takže se zatím nevzrušujte.