OpenAI škádlila a opakovaně odkládala vydání Sora téměř rok. V úterý společnost konečně odhalila plně funkční verzi nového modelu videogenerace určeného pro veřejné použití a navzdory počátečnímu rozruchu se zdá, že stále více prvních uživatelů tohoto vydání není příliš ohromeno. A já taky ne.
Představujeme Sora, náš model převodu textu na video.
Sora dokáže vytvořit videa o délce až 60 sekund s vysoce detailními scénami, složitým pohybem kamery a mnoha postavami s živými emocemi. https://t.co/7j2JN27M3W
Výzva: „Krásné, zasněžené… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 15. února 2024
Společnost poprvé představila Sora loni v únoru, aby získala uznání kritiků za její hyperrealistické vykreslování videa. „Sora může generovat videa dlouhá až minutu při zachování vizuální kvality a dodržování pokynů uživatele,“ napsal OpenAI na svém blogu s oznámením v té době. „Model rozumí nejen tomu, co uživatel požadoval ve výzvě, ale také tomu, jak tyto věci existují ve fyzickém světě.“
Doporučená videa
OpenAI neustále vypouští další šílená videa Sora
Jedná se o 100% generovanou AI
9 videí o ohýbání reality
1. Slon vyrobený z listů pic.twitter.com/tPsHNGbFPS
— Linus Ekenstam (@LinusEkenstam) 18. března 2024
Společnost v březnu zveřejnila další záběry generované Sorou, tentokrát slona vyrobeného z listů, což dále propaguje schopnosti modelu. Program Sora následně narazil na řadu zpoždění ve vývoji, které hlavní produktový ředitel OpenAI Kevin Weil v nedávné Reddit AMA na „potřebě zdokonalit model, zajistit bezpečnost/zosobnění/ostatní věci a škálovat výpočty“. Ve stejnou dobu, Informace uvedli, že první iterace Sora trpěly špatným výkonem a snažily se udržet zaměření na výzvy uživatele, což vyžadovalo až 10 minut reálného světa k vytvoření minutového klipu. Model byl také nedávno zveřejněn online skupinou nespokojených beta testerů, kteří měli námitky proti praktikám OpenAI „vymývání umění“, nicméně společnost v reakci na to rychle odstranila neautorizované uživatelské rozhraní skupiny z Hugging Face.
Zatímco OpenAI ladila a vylepšovala výkon Sory, konkurence společnosti obědvala. Umělá inteligence Adobe Firefly AI, Runway Gen 3 Alpha, Meta Movie Gen a Kling společnosti Kuaishou Technology (nemluvě o nesčetných možnostech bezplatného použití) se v minulém roce rozšířily po celém internetu a mnohé z nich nabízejí klipy ve vynikající kvalitě a rychlejší časy vyvozování než jaké. OpenAI opakovaně slibovala.
V úterý OpenAI oficiálně představilo produkční verzi Sora a vydalo ji svým předplatitelům za 20 $ měsíčně Plus a 200 $ měsíčně (lol) Pro. Nebo to alespoň společnost na pár hodin dělala. Jako technologický komentátor Ed Zitron poznamenal Bluesky Wednesday„Pouhé hodiny – možná ještě méně – poté, co řekl Sora, že je pryč, OpenAI přestalo přijímat registrace nových účtů bez jasného časového plánu. OpenAI návnada a výměna celého technologického média. Tato společnost si v žádném případě nemůže dovolit zpřístupnit svůj generátor videa veřejnosti.“
Pro lidi, kterým se podařilo získat přístup, byla videa, která se Soře podařilo vytvořit, méně než působivá. Jak zdůraznil osobnost YouTube Marques Brownlee během svého praktického videa s modelem, vygenerování jediného 20sekundového klipu s rozlišením 1080p vyžadovalo několik minut a mělo značné potíže s generováním nohou subjektu a jejich pohybů s přední a přední částí. zadní nohy si nepřirozeně vyměňují pozice v celém klipu. Stačí se podívat na vygenerované video níže gymnasty, který si za letu vyměňuje ruce, nohy a hlavu, když padají přes podložku, abyste viděli, co tím myslel.
zde je video gymnastiky generované Sorou
— Peter Labuza (@labuzamovies.bsky.social) 2024-12-11T17:35:23.989Z
Uživatel Bluesky Peter Labuza, který zveřejnil gymnastické video, neudržel svou kritiku modelky, uvádějící: „Omlouvám se, ale když vytvoříte generátor textu na video a řeknete mu „nechte kočku běhat po poli“ a dáte tomu počáteční obrázek a kočka prostě STOJÍ, váš generátor nefunguje.“
Uživatel Bluesky Chris Offner zastával podobný názor, sarkasticky poznamenal, že „Sora je fyzikální engine řízený daty“, zatímco sdílel naprosto šílený klip lyžaře, který popírá většinu, ne-li všechny, známé fyzikální zákony.
The Verge Model také vyzkoušel a naříkal nad tím, že se stále nemůže vyhnout nevzhledným inkluzím, jako jsou „další končetiny nebo zdeformované objekty“.
„Sora je fyzikální engine řízený daty.“ x.com/chrisoffner3…
— Chris Offner (@chrisoffner3d.bsky.social) 2024-12-10T12:42:53.674Z
Ne všichni nenáviděli Soru na první pohled. Uživatel X Nathan Shipley předvedl funkci modelu „remix“, která uživatelům umožňuje maskovat vygenerované video pohybům objektů v nahraném vzorku. V tomto případě nechal vygenerovanou jeřábovou hlavu pohnout stejným způsobem jako nůžky, které na videu drží.
Sora Remix test: Nůžky na jeřáb
Výzva byla „Zblízka zvědavého ptáka jeřába, který se rozhlíží po krásné přírodní scéně u rybníka. Hlava ptáků vyskočí do záběru a pak ven.“ pic.twitter.com/CvAkdkmFBQ
— Nathan Shipley (@CitizenPlain) 10. prosince 2024
Zatím není známo, kdy bude společnost schopna spolehlivě znovu otevřít registrace účtu pro zainteresované uživatele Sora. Zda se OpenAI může dvořit Hollywoodu se Sorou ve svém současném stavu, jako to nedávno udělal Runway Gen 3 a Lionsgatetaké se teprve uvidí.
Jedna věc zůstává jistá, OpenAI, navzdory svému počátečnímu vedení v boomu AI, je rychle překonán zbytkem odvětví a nevýrazné verze produktů, jako je to, co jsme právě viděli u Sory, jen dále poškodí pověst společnosti.