Meta wykorzystuje sztuczną inteligencję do tworzenia filmów na podstawie kilku słów 

Sztuczna inteligencja (AI) jest coraz lepsza w generowaniu obrazu na podstawie kilku słów dzięki publicznie dostępnym generatorom obrazów AI, takim jak DALL-E 2 i Stable Diffusion. Teraz pracownicy Meta idą o krok dalej: używają AI do tworzenia filmów na podstawie materiału tekstowego. 

Dyrektor generalny Meta, Mark Zuckerberg, opublikował w czwartek na Facebooku materiał o badaniu, zwanym Make-A-Video, z 20-sekundowym klipem, który kompiluje kilka zdań tekstowych, z których korzystali specjaliści Meta, oraz wynikające z nich (bardzo krótkie) filmy. Zdanie te brzmiały: „Miś malujący autoportret”, „Statek kosmiczny lądujący na Marsie”, „Niemowlę leniwica w czapce z dzianiny, próbujący rozgryźć laptopa” i „Robot surfujący na fali w oceanie”. 
Filmy dla każdej wypowiedzi trwają tylko kilka sekund i generalnie pokazują to, co zawiera zdanie (z wyjątkiem niemowlęcia leniwca, który nie wygląda zbytnio jak rzeczywiste stworzenie) w dość niskiej rozdzielczości i nieco szarpanym stylu. 
Wysiłki te pokazują nowy kierunek, jaki obierają badania nad sztuczną inteligencją, ponieważ systemy stają się coraz lepsze w generowaniu obrazów ze słów. Jeśli jednak technologia ta zostanie w końcu rozpowszechniona, wzbudzi wiele takich samych obaw wywołanych przez systemy przetwarzania tekstu na obraz, jak na przykład możliwość wykorzystania jej do rozpowszechniania dezinformacji za pośrednictwem wideo. 
Strona internetowa programu Make-A-Video zawiera te krótkie klipy i inne, z których niektóre wyglądają dość realistycznie, takie jak film stworzony w odpowiedzi na zdanie „Ryba błazenka płynąca przez rafę koralową” lub film mający na celu pokazanie „Młodą parę spacerującą w ulewnym deszczu”. 
W swoim poście na Facebooku Zuckerberg wskazał, jak trudne jest wygenerowanie ruchomego obrazu z kilku słów. „O wiele trudniej jest wygenerować wideo niż zdjęcia, ponieważ poza prawidłowym generowaniem każdego piksela system musi również przewidzieć, jak zmienią się w czasie” – napisał.
Projekt wykorzystuje model sztucznej inteligencji przetwarzający tekst na obraz, tak by dowiedzieć się, w jaki sposób słowa odpowiadają obrazom, oraz technikę sztucznej inteligencji znaną jako „nienadzorowane uczenie się”.
Zuckerberg napisał, że Meta planuje w przyszłości udostępnić projekt Make-A-Video jako demo.

Źródło

Skomentuj artykuł: