Nástroje AI mají nedostatek trénovacích dat, ale existuje 6 řešení.

Nástroje AI mají nedostatek trénovacích dat, ale existuje 6 řešení.

Klíčové věci

  • Umělá inteligence může do roku 2026 vyčerpat vysoce kvalitní data, ale rostoucí množství dat přidávaných na internet každoročně nabízí potenciální řešení.
  • Umělá inteligence by mohla být vyzvána, aby zapomněla na data nízké kvality, což by tlačilo na vývoj metod k selektivnímu „odučení“ dat.
  • Technologie rozpoznávání řeči zpřístupňuje data videa a podcastu pro školení AI, zatímco syntetická data nabízejí budoucí řešení pro růst AI.

Umělá inteligence potřebuje tréninková data, ale ta jsou omezená. Jak tedy jinak můžeme AI trénovat, aby nadále rostla a byla pro nás užitečná?

Možná si myslíte, že internet a jeho data jsou nevyčerpatelné zdroje, ale nástrojům umělé inteligence docházejí data k těžbě. Nyní, než se budete bát, nezastaví vývoj umělé inteligence – stále existuje spousta dat pro trénování systémů umělé inteligence.

1Online vždy přibývá více dat

Stručně řečeno, výzkumný ústav AI Epoch říká, že vysoce kvalitní data, na kterých se AI trénuje, by mohla do roku 2026 dojít.

Klíčové slovo tam je „mohl“. Množství dat přidávaných na internet se každým rokem zvyšuje, takže do roku 2026 se může něco drastického změnit. Přesto je to spravedlivý odhad – v každém případě systémům umělé inteligence v určitém okamžiku dojdou dobrá data.

Měli bychom si však pamatovat, že každý rok je online přidáno asi 147 zettabytů dat (podle Exploding Topics). Pouhý jeden zettabyte se rovná 1 000 000 000 000 000 000 000 bitů dat. Reálně (no, trochu reálně), to je více než 30 miliard 4K filmů (skutečných, ale nepochopitelných). Je to překvapivé množství informací, kterými se umělá inteligence musí probírat.

Umělá inteligence však spotřebovává data rychleji, než je lidstvo dokáže vytvořit…

2AI může zapomenout na data nízké kvality

Ne všech těch 147 zettabajtů dat jsou samozřejmě dobrá data. Je toho mnohem víc, než se na první pohled zdá. Odhaduje se však, že umělá inteligence do roku 2050 spotřebuje i nekvalitní jazyková data.

Agentura Reuters uvedla, že Photobucket, kdysi jedno z největších světových úložišť obrázků, jedná o licenci na svou rozsáhlou knihovnu školicím firmám AI. Obrazová data mají trénované systémy jako DALL-E a Midjourney, ale i to by mohlo do roku 2060 vyčerpat. I zde je větší problém: Photobucket obsahoval obrázky z platforem sociálních médií 2000s, jako je Myspace, což znamená, že nejsou tak vysokým standardem jako aktuální fotografie. To vede k nekvalitním datům.

Ve vztahu :  Snapdragon X Elite: Výkonný, ale běží tepleji než Apple M3 - Předběžná zpráva

Photobucket není sám. V únoru 2024 uzavřel Google dohodu s Redditem, která umožnila vyhledávacímu gigantu používat uživatelská data platformy sociálních médií při školení AI. Jiné platformy sociálních médií také poskytují uživatelská data pro účely školení AI; někteří jej používají k trénování vlastních modelů umělé inteligence, jako je Meta’s Llama.

Zatímco některé informace lze získat z nekvalitních dat, Microsoft údajně vyvíjí způsob, jak AI selektivně „odučit“ data. Primárně by to bylo použito pro problémy s IP, ale mohlo by to také znamenat, že nástroje mohou zapomenout, co se naučily z nekvalitních souborů dat.

Mohli bychom AI dodávat více dat, aniž bychom byli příliš selektivní; tyto systémy umělé inteligence si pak mohly vybrat to, z čeho je nejpřínosnější se učit.

3Rozpoznávání řeči otevře data videa a podcastů

Data dodávaná do nástrojů AI se dosud skládala převážně z textu a v menší míře z obrázků. To se nepochybně změní a pravděpodobně se to již stalo, protože software pro rozpoznávání řeči bude znamenat, že množství dostupných videí a podcastů může také trénovat AI.

OpenAI zejména vyvinula open-source neuronovou síť pro automatické rozpoznávání řeči (ASR) Whisper využívající 680 000 hodin vícejazyčných a multitaskingových dat. OpenAI pak do svého velkého jazykového modelu GPT-4 vložilo přes milion hodin informací z videí YouTube.

Toto je ideální šablona pro jiné systémy umělé inteligence, které využívají rozpoznávání řeči k přepisu videí a zvuku z mnoha zdrojů a provádějí tato data prostřednictvím svých modelů umělé inteligence.

Podle Statista je na YouTube každou minutu nahráno přes 500 hodin videa, což je číslo, které zůstalo poměrně konzistentní od roku 2019. A to bez zmínky o dalších video a audio platformách jako Dailymotion a Podbean. Pokud umělá inteligence dokáže obrátit svou pozornost na nové datové sady, jako jsou tyto, zbývá ještě vytěžit obrovské množství informací.

4AI se z velké části přilepily na anglický jazyk

To není vše, co se můžeme od Whispera naučit. OpenAI trénovala model pomocí 117 000 hodin neanglických zvukových dat. To je obzvláště zajímavé, protože mnoho systémů umělé inteligence bylo trénováno především pomocí angličtiny nebo prohlížením jiných kultur západní optikou.

V podstatě je většina nástrojů omezena kulturou jejich tvůrců.

Vezměte ChatGPT jako příklad. Krátce po jeho vydání v roce 2022 Jill Walker Rettberg, profesorka digitální kultury na univerzitě v Bergenu v Norsku, vyzkoušela ChatGPT a dospěla k závěru:

„ChatGPT toho o norské kultuře moc neví. Nebo spíše, cokoli, co ví o norské kultuře, se pravděpodobně většinou naučilo ze zdrojů v anglickém jazyce… ChatGPT je výslovně v souladu s americkými hodnotami a zákony. V mnoha případech se blíží norským a evropským hodnotám, ale pravděpodobně tomu tak nebude vždy.“

Ve vztahu :  8 nejlepších ChatGPT podnětů k eliminaci digitálních rušivých faktorů.

Umělá inteligence se tedy může rozvíjet, čím více s nimi bude interagovat nadnárodní společnost – nebo čím rozmanitější jazyky a kultury se používají k výcviku takových systémů. Právě teď je mnoho umělých inteligencí omezeno na jedinou knihovnu; mohou růst, pokud jim budou poskytnuty klíče od knihoven po celém světě.

5Vydavatelství by mohla pomoci s vývojem AI

žena fouká konfety z otevřené knihy, kterou právě četla

IP je samozřejmě obrovský problém, ale někteří vydavatelé by mohli pomoci s vývojem AI uzavřením licenčních smluv. To by znamenalo poskytnout nástrojům vysoce kvalitní, tj. spolehlivá data z knih, spíše než potenciálně nekvalitní informace získané z online zdrojů.

Ve skutečnosti Meta, majitelé Facebooku, Instagramu a WhatsApp, údajně zvažovali koupi Simon & Schuster, jednoho z vydavatelství „Big Five“. Cílem bylo použít literaturu publikovanou firmou k trénování vlastní umělé inteligence Meta. Dohoda nakonec selhala, možná kvůli etické šedé zóně společnosti zpracovávající IP bez předchozího souhlasu autorů.

Další zřejmě zvažovanou možností byl nákup individuálních licenčních práv na nové tituly. To by mělo kreativcům způsobit velké obavy, ale i tak to bude zajímavý způsob vývoje nástrojů AI, pokud se vyčerpají použitelná data.

6 Syntetická data jsou budoucnost

Každé jiné řešení je stále omezené, ale jedna možnost by mohla vést k tomu, že AI vzkvétá daleko do budoucnosti: syntetická data. A už se to vyšetřuje jako velmi reálná možnost.

Co jsou tedy syntetická data? V tomto smyslu jsou to data vytvořená AI; stejně jako lidé vytvářejí data, tato metoda by viděla umělou inteligenci generovat data pro tréninkové účely.

Ve skutečnosti by umělá inteligence mohla vytvořit přesvědčivé deepfake video. Toto hluboké falešné video by mohlo být vráceno zpět do AI, aby se mohla poučit z toho, co je v podstatě imaginární scénář. To je koneckonců jeden hlavní způsob, jak se lidé učí: něco čteme nebo sledujeme, abychom porozuměli světu kolem nás.

AI pravděpodobně již spotřebovaly syntetické informace. Deepfakes šířily online dezinformace a dezinformace, takže jak systémy umělé inteligence skenují internet, dává smysl, že některé budou vystaveny falešnému obsahu.

Ano, má to zákeřnou stránku. Mohlo by to také poškodit nebo omezit AI, posílit a rozšířit chyby způsobené těmito nástroji. Společnosti pracují na odstranění druhého problému; „AI se od sebe navzájem učí a dělá chyby“ je přesto děj mnoha sci-fi scénářů nočních můr.

7

AI je kontroverzní. Má to spoustu nevýhod, ale kritici ignorují jeho výhody. Například auditorská a poradenská síť PwC [PDF] naznačuje, že umělá inteligence by mohla do roku 2030 přispět do světové ekonomiky až 15,7 bilionu dolarů.

A co víc, AI se již používá po celém světě. Pravděpodobně jste to dnes v nějaké podobě použili, možná aniž byste si to uvědomovali. Nyní je džin z láhve venku, klíčové je určitě vycvičit ho na spolehlivých a kvalitních datech, abychom ho mohli náležitě využít.

AI má svá pozitiva i negativa. Je třeba najít rovnováhu.

Moyens I/O Staff vás motivoval, dává vám rady ohledně technologie, osobního rozvoje, životního stylu a strategií, které vám pomohou.