OpenAI potřebuje pouze 15 sekund zvuku, aby umělá inteligence naklonovala hlas 13

OpenAI potřebuje pouze 15 sekund zvuku, aby umělá inteligence naklonovala hlas

V posledních letech se doba poslechu, kterou vyžaduje kus umělé inteligence ke klonování něčího hlasu, zkracuje a zkracuje.

Dříve to byly minuty, teď jsou to jen vteřiny.

OpenAI, společnost podporovaná Microsoftem a stojící za virálním generativním chatbotem s umělou inteligencí ChatGPT, nedávno odhalila, že její vlastní technologie klonování hlasu vyžaduje pouze 15 sekund zvukového materiálu k reprodukci něčího hlasu.

V příspěvku na svých webových stránkách OpenAI sdílela malou ukázku modelu s názvem Voice Engine, který vyvíjí od konce roku 2022.

Voice Engine funguje tak, že do něj vloží minimálně 15 sekund mluveného materiálu. Uživatel je pak schopen vložit text a vytvořit to, co OpenAI popisuje jako „emotivní a realistický“ projev, který „blízce připomíná původního mluvčího“.

OpenAI trvá na tom, že zaujímá „opatrný a informovaný přístup k širšímu vydání kvůli potenciálu zneužití syntetického hlasu“ a dodává, že chce „zahájit dialog o zodpovědném nasazení syntetických hlasů a o tom, jak se společnost může těmto novým schopnosti.”

Dodal: „Na základě těchto rozhovorů a výsledků těchto testů v malém měřítku učiníme informovanější rozhodnutí o tom, zda a jak nasadit tuto technologii ve velkém měřítku.“

Jedním ze zneužití, o kterém OpenAI hovoří, je podvod, který již někteří zločinci provádějí pomocí podobné technologie, která je již nějakou dobu veřejně dostupná. Zahrnuje klonování hlasu a poté zavolání příteli nebo příbuznému této osoby, aby je přiměl k předání hotovosti bankovním převodem. Existují také obavy z toho, jak by taková technologie mohla být použita v nadcházejících prezidentských volbách, což je problém, na který upozornil nedávný vysoce sledovaný incident, ve kterém robotické volání využívající klon hlasu prezidenta Joe Bidena řekl lidem, aby nevolili v lednových primárkách v New Hampshire.

Další obavou je, jak rychle se zdokonalující technologie ovlivní živobytí hlasových herců, kteří se obávají, že budou stále častěji žádáni, aby podepsali práva na svůj hlas, aby bylo možné použít umělou inteligenci k vytvoření syntetické verze s kompenzací za takovou smlouvu. pravděpodobně mnohem nižší, než kdyby byl herec požádán, aby práci vykonal osobně.

Podíváme-li se na pozitivnější nasazení této technologie, OpenAI navrhuje, že by mohla být použita k poskytování pomoci při čtení nečtenářům a dětem pomocí přirozeně znějících, emotivních hlasů „reprezentujících širší škálu mluvčích, než je možné s přednastavenými hlasy“. jako okamžitý překlad videí a podcastů, něco, co Spotify již zkouší.

Mohlo by se také použít k pomoci pacientům, kteří v důsledku nemoci postupně ztrácejí hlas, pokračovat v komunikaci pomocí toho, co zní jako jejich vlastní hlas.

Ve vztahu :  Nejnovější beta verze WhatsApp vám umožňuje přidat nové správce kanálu

OpenAI má několik příkladů zvuku generovaného umělou inteligencí a referenčního zvuku na svých webových stránkách a jsme si jisti, že budete souhlasit, jsou docela mimořádné.