Det er som om de store spillere inden for AI konstant overgår hinanden. Først satte Google en tyk streg under deres AI ambitioner med introduktionen af Gemini Ultra som har flere muskler end OpenAI's GPT-4 model (det kan du læse om her). Så gik der kun et par dage før OpenAI slog tilbage med introduktionen af deres tekst-til-video model "Sora" som er helt mindblowing og kan producere videosekvenser i nær ved Hollywood-kvalitet (læs mere her).
Så melder Midjourney ud at de arbejder på en webversion af deres førende tekst-til-billede model og at det om kort tid ikke længere vil være nødvendigt med de lidt indviklede krumspring hvor man skal igennem Discord-platformen for at generere billeder. Webversionen af Midjourney kommer til at gøre billedegenerering langt mere tilgængelig for den brede offentlighed.
Nu melder en helt ny spiller sig så på AI-scenen - Alibaba, der nok er mest kendt som en kæmpe stor kinesisk e-handelsplatform. Med deres nye videogenerator, EMO, er vi i kategorien af lettere skræmmende AI teknologi... EMO kan generere video ud fra et stillbillede - og vække billedet til live med bevægelse og tale eller sang.
Det betyder, at man kan tage et billede af en person, afdød eller nulevende, og få personen til at sige ting som vedkommende aldrig har sagt. Med en stemmegenereringstjeneste som Elevenlabs (læs mere her) der laver tekst-til-tale i overvældende kvalitet, vil ingen kunne afgøre om det faktisk er personen på billedet der siger eller gør hvad du ser og hører. Det er skræmmende fordi det lægger sig i kategorien hvor fiktion og virkelighed flyder sammen og du ikke kan se eller høre forskel. Jo, måske lige nu, i første udgave - men ikke om 12 måneder når kvaliteten er forbedret i generation 2, 3 og 4.
EMO er imponerende teknologi, men viser desværre også nogle mørkere sider ved AI og den fremtid vi hastigt bevæger os imod: "Trust nothing you hear or see".
Se videoen herunder hvor et stillbillede af afdøde skuespiller Audrey Hepburn pludselig synger en moderne Ed Sheeran sang. Eller Mona Lisa-maleriet der kan tale...
-