Krajina umělé inteligence (AI) prochází významnou transformací, překračující tradiční chatboty. Po spuštění ChatGPT koncem roku 2022, který využíval velké jazykové modely (LLMs), je nyní pozornost zaměřena na agentů poháněných akcemi. Zatímco AI chatboty jako ChatGPT a Google Gemini excelují v zpracování textových a vizuálních vstupů s přirozenými jazykovými odpověďmi, AI agenti mohou vykonávat složité úkoly. V tomto článku se podíváme na fungování, klasifikace a budoucnost AI agentů podrobně.
Pochopení AI agentů: Co to jsou?
Termín „AI agent“ označuje software poháněný umělou inteligencí, který je schopný plánování, uvažování, rozhodování a autonomního vykonávání vícestupňových akcí k dosažení konkrétních cílů. Na rozdíl od AI chatbotů, které fungují v omezeném prostředí, AI agenti spolupracují s externími systémy, aby splnili úkoly.
Pohánění velkými jazykovými modely (LLMs) jsou tito AI agenti přizpůsobeni pro usnadnění úkolů zaměřených na akce. V současnosti přední společnosti implementují metodiku posilování učení a pokročilé techniky uvažování na vizuálních jazykových modelech, aby zlepšily funkčnost AI agentů. Dále jsou tito agenti často integrováni s různými externími nástroji, včetně API, funkcí a databází, aby efektivně vykonávali širokou škálu úkolů.
AI agenti tedy představují nejen model, ale komplexní „AI systém“, který podporuje interakci s nástroji, spravuje krátkodobou a dlouhodobou paměť a spolupracuje se systémy třetích stran, aby splnil určené úkoly. Příkladem je AI agent Operator od OpenAI. Tento Agent pro použití počítače (CUA) dokáže procházet grafickými uživatelskými rozhraními (GUI) a vykonávat různé online akce.
AI agent Operator může vykonávat úkoly, jako je procházení webu, objednávání potravin, vyplňování formulářů a rezervace letů. Využívá schopností vidění GPT-4, analyzuje obrazovky a určuje vhodné kliknutí. Není však dosud plně autonomní a někdy vyžaduje lidský dohled k vyřešení smyček, které narazí.
Vzhledem k jeho ranému stadiu se klíčové operace, jako je dokončení platby, vrací pod kontrolu uživatele. V podstatě sledujeme vzestup agentů poháněných akcemi schopných vykonávat významné úkoly, což je vývoj po AI chatbotech.
Různé typy AI agentů: Podrobný přehled
Ve své základní práci „Umělá inteligence: moderní přístup“ Stuart Russell a Peter Norvig popisují pět hlavních typů AI agentů: Jednoduché reflexní agenty, Modelově založené reflexní agenty, Cílově orientované agenty, Agenty založené na užitku a Učící se agenty.
Jednoduchý reflexní agent funguje na základě základní podmínkové logiky, reagujíc na specifické podněty, aniž by uchovával minulé informace. Tento základní typ AI vykonává akce, když jsou splněny určité podmínky a postrádá paměť a schopnosti učení.

Naopak modelově založené reflexní agenti uchovávají paměť a vyvíjejí základní porozumění svému prostředí pozorováním reakcí na své akce. Například robotický vysavač přizpůsobuje svůj interní model, aby se vyhnul překážkám při úklidu, i když jeho funkčnost je omezena předdefinovanými pravidly.
Cílově orientovaní agenti se zaměřují na dosažení konkrétních cílů, spíše než aby dodržovali striktně pravidla. Tato kategorie zahrnuje plánovací a uvažovací schopnosti, které jim umožňují zhodnotit více faktorů předtím, než učiní rozhodnutí. Například AI hrající šachy analyzuje řadu možných tahů, aby zajistila příznivý výsledek.
Agenti založení na užitku jsou navrženi tak, aby vybírali sekvence akcí, které maximalizují spokojenost, řízeny systémem odměn. Nakonec, učící se agenti mají schopnost získávat nové znalosti z neznámých prostředí, zlepšují své výkony v průběhu času a přizpůsobují se preferencím uživatelů. Pro podrobnější prozkoumání různých typů AI agentů se můžete odkázat na naši specializovanou příručku o typech AI agentů.
Pozoruhodné příklady AI agentů v akci
Jedním pozoruhodným příkladem je Operator od OpenAI (navštivte), průlomový spotřebitelský AI agent schopný procházet web prostřednictvím cloudového prohlížeče, aby vykonával různé úkoly. Uživatelé mohou od Operátora požadovat objednání jídla, rezervaci hotelů, zajištění vstupenek na koncerty a další. V současnosti je agent v rané výzkumné fázi a je exkluzivní pro předplatitele ChatGPT Pro za měsíční poplatek 200 USD (přibližně 190 EUR).
Kromě Operátora OpenAI představila Deep Research AI agenta, který je schopen vytvářet komplexní zprávy na jakékoli téma a poskytovat citace pro ověření zdrojů. Gemini’s Deep Research AI agent nabízí podobné funkce a je volně přístupný.
Firma Anthropic vyvinula AI agenta pro použití počítače, který dokáže ovládat počítač tím, že vizuálně analyzuje obrazovku. Při testování tohoto AI agenta v prostředí Docker jsem zjistil, že je funkční, ačkoliv pomalý. Je pozoruhodné, že standard MCP společnosti Anthropic získává na popularitě mezi AI společnostmi jako Google, OpenAI a Microsoft, což usnadňuje spojení mezi AI agenty a AI modely.
V poslední době získal pozornost Manus, obecný AI agent z Číny, pro svou schopnost procházet webem, vykonávat kód a komunikovat s cloudovými počítači. Přestože jeho ukázky zaujaly, je poháněn modelem Claude 3.5 Sonnet společnosti Anthropic.
Mezitím Google vyvíjí projekt Mariner, určený k vykonávání úkolů v prohlížeči Chrome, podobně jako OpenAI’s Operator. V současnosti Google provádí testy s důvěryhodnými testery, přičemž uvolnění je očekáváno v blízké budoucnosti.
Na závěr, jsme na pokraji éry agentní AI, i když plná automatizace a důvěra v AI modely pro kritické úkoly zůstávají o rok nebo dva daleko. Společnosti implementují lidský dohled jako standard pro interakci s AI agenty. Přesto budoucnost slibuje akční pokroky, přičemž hlavní AI laboratoře jako OpenAI a Google DeepMind usilují o přetvoření vize agentní AI na realitu.
Často kladené otázky o AI agentech
Co je AI agent?
AI agent je software poháněný umělou inteligencí, který může plánovat, rozhodovat a vykonávat akce automaticky k dosažení konkrétních cílů, často interagující s jinými systémy.
Jak se AI agenti liší od tradičních chatbotů?
Na rozdíl od tradičních chatbotů, které primárně zvládají textové interakce, mohou AI agenti vykonávat složité úkoly a interagovat s externími prostředími, což umožňuje širší škálu funkcí.
Jaké jsou některé příklady AI agentů?
Příklady AI agentů zahrnují OpenAI’s Operator, AI agenta pro použití počítače od Anthropic a Deep Research agenta od Gemini, kteří všichni vykonávají různé úkoly nezávisle nebo poloautonomně.
Jak se AI agenti používají v byznysu?
Firmy využívají AI agenty k automatizaci zákaznického servisu, analýze dat a dokonce i finančním transakcím, což zlepšuje efektivitu a produktivitu.
Jaká je budoucnost AI agentů?
Budoucnost AI agentů je slibná, přičemž se očekávají pokroky v autonomii, rozhodovacích schopnostech a integraci s různými platformami, což otevírá cestu pro další aplikace zaměřené na akce.