KLÍČOVÉ SNÍMKY
- GPTBot od OpenAI je webový prohledávač navržený ke shromažďování dat z veřejných webů, která se pak používají k trénování a vylepšování modelů umělé inteligence, jako jsou GPT-4 a ChatGPT.
- Některé z největších webových stránek na internetu blokují GPTBot, protože přistupuje a používá obsah chráněný autorskými právy bez povolení nebo kompenzace pro tvůrce.
- I když webové stránky mohou používat nástroje jako robots.txt, aby se pokusily zablokovat GPTBot, neexistuje žádná záruka, že OpenAI bude vyhovovat a dá jim kontrolu nad přístupem k datům chráněným autorským právem.
V srpnu 2023 oznámila OpenAI, AI, která se zasloužila o vývoj ChatGPT, GPTBot, webový prohledávač určený k procházení webu a shromažďování dat.
Nedlouho po tomto oznámení některé z největších webových stránek na internetu zablokovaly robotovi přístup na jejich web. Ale proč? Co je GPTBot OpenAI? Proč se toho velké weby bojí a proč se to snaží blokovat?
Co je GPTBot OpenAI?
GPTBot je webový prohledávač vytvořený OpenAI pro vyhledávání na internetu a shromažďování informací pro rozvojové cíle OpenAI AI. Je naprogramován k procházení veřejných webových stránek a odesílání dat zpět na servery OpenAI. OpenAI pak tato data využívá k trénování a vylepšování svých modelů umělé inteligence s cílem budovat stále pokročilejší systémy umělé inteligence. Pro vytváření sofistikovaných modelů umělé inteligence, jako je GPT-4 nebo jeho podřízených produktů, jako je ChatGPT, jsou webové prohledávače téměř nepostradatelné.
Trénink modelu umělé inteligence vyžaduje obrovské množství dat a jedním z nejúčinnějších způsobů, jak tato data shromáždit, je nasazení nástrojů, jako jsou webové prohledávače. Prohledávače mohou systematicky procházet web, pomocí odkazů indexovat velké objemy webových stránek a extrahovat klíčová data, jako jsou text, obrázky a metadata, která odpovídají předem definovanému vzoru.
Tato data pak lze strukturovat a vkládat do modelů umělé inteligence, aby se trénovaly jejich schopnosti zpracování přirozeného jazyka nebo schopnosti generování obrázků nebo je trénovali pro jiné úkoly umělé inteligence. Jednoduše řečeno, webové prohledávače shromažďují data, která umožňují nástrojům jako ChatGPT nebo DALL-E dělat to, co dělají.
Webové prohledávače nejsou novým konceptem. Pravděpodobně jich dnes miliony procházejí miliardy webových stránek dostupných na internetu. A existují minimálně od počátku 90. let. GPTBot je jen jedním z takových prohledávačů vlastněných OpenAI. Co tedy způsobuje kontroverzi kolem tohoto konkrétního webového prohledávače?
Proč velké technologické weby blokují GPTBot?
Podle Business Insider některé z největších webových stránek na internetu aktivně blokují prohledávač OpenAI na svých webových stránkách. Pokud je tedy konečným cílem GPTBot pokročit ve vývoji umělé inteligence, proč jsou některé z největších webů na internetu, z nichž některé tak či onak z umělé inteligence těžily, proti?
No, tady je ta věc. Od oživení generativních technologií umělé inteligence v roce 2022 se vedly četné debaty o právu společností využívajících umělou inteligenci téměř neomezeně využívat data pocházející z internetu, z nichž značná část je právně chráněna autorským právem. Žádné jasné zákony neupravují, jak tyto společnosti shromažďují a používají data pro svůj vlastní zisk.
V zásadě tedy prohledávače, jako je GPTBot, procházejí web, uchopují tvůrčí práci lidí ve formě textu, obrázků nebo jiných forem médií a používají je pro komerční účely, aniž by získávali jakékoli povolení, licencování nebo poskytování kompenzace původním tvůrcům.
Venku je divoký západ a společnosti s umělou inteligencí se chytají všeho, co jim přijde pod ruku. Velké weby jako Quora, CNN, New York Times, Business Insider a Amazon nejsou příliš potěšeny tím, že jejich obsah chráněný autorským právem je sklízen těmito prohledávači, takže OpenAI z toho může získat finanční prospěch na jejich náklady.
To je důvod, proč tyto stránky nasazují „robots.txt“, desítky let starou metodu blokování webových prohledávačů. Podle OpenAIGPTBot se bude řídit pokyny k procházení nebo zamezení procházení webových stránek na základě pravidel vložených do robots.txt, malého textového souboru, který webovým prohledávačům říká, jak se mají na webu chovat. Pokud máte vlastní web a rádi byste zabránili GPTBot v získávání vašich dat, zde je návod, jak můžete blokovat prohledávače OpenAI, aby vaše webové stránky škrábaly.
Mohou webové stránky skutečně zastavit GPTBot?
Zatímco prohledávače jako GPTBot jsou nepostradatelné pro shromažďování obrovského množství dat potřebných k výcviku pokročilých systémů umělé inteligence, existují oprávněné obavy týkající se autorských práv a spravedlivého použití, které nelze ignorovat.
Jistě, existují jednoduché nástroje jako robots.txt, které lze použít k ochraně proti tomu, ale zda se GPTBot podřídí pokynům v tomto souboru, je zcela na uvážení OpenAI. Neexistují žádné záruky, že tak učiní, a neexistuje žádný bezprostřední spolehlivý způsob, jak zjistit, zda tak učinili. V boji za udržení GPTBot mimo data chráněná autorskými právy drží OpenAI esa, alespoň prozatím.