Em um recente artigo, a Microsoft apresentou um novo modelo de IA que produz uma cabeça falante realista, gerada apenas a partir do upload de uma fotografia estática e uma amostra de voz.
O novo modelo é chamado VASA-1 e requer apenas uma foto de retrato e um arquivo de áudio da voz, combinando-os para criar um vídeo curto de uma cabeça falante com expressões faciais, sincronização labial e movimentos de cabeça. A cabeça produzida até mesmo pode cantar músicas, na voz enviada no momento da criação.
A Microsoft VASA-1 é uma grande inovação para animação.
De acordo com a Microsoft, o novo modelo de IA ainda está em fase de pesquisa e não há planos de lançá-lo ao público em geral. Somente os pesquisadores da Microsoft têm acesso a ele. No entanto, a empresa compartilhou várias demonstrações impressionantes que mostram realismo impressionante e movimentos labiais extremamente naturais.
Fonte: Microsoft.
A demonstração mostra pessoas que parecem reais, como se estivessem sentadas na frente de uma câmera sendo filmadas. Os movimentos das cabeças são realistas e parecem bastante naturais, e a sincronização labial com o áudio é excepcional, com poucas falhas perceptíveis. A sincronização geral da boca é fenomenal.
A Microsoft afirmou que o modelo foi desenvolvido para animar personagens virtuais e que todas as pessoas mostradas na demonstração são sintéticas, geradas a partir do DALL-E, o gerador de imagens da OpenAI. Portanto, acreditamos que se ele pode animar um modelo gerado por IA, obviamente há muito mais potencial para animar fotos de qualquer pessoa real, com maior realismo e facilidade de manipulação.
Possíveis usos do VASA-1 e seu potencial de uso indevido
Fonte: Microsoft.
Se olharmos para o potencial do VASA-1 para uso prático, em primeiro lugar, ele pode ser usado para animar personagens em filmes animados, dando-lhes uma sensação mais realista com expressões faciais naturais e movimentos de cabeça. Outra possível aplicação seria em jogos de vídeo game, pelo mesmo motivo. Pense em jogos como Grand Theft Auto e similares. No futuro, ele pode ser usado para filmes ou séries gerados por IA de hiper realismo, em que os personagens podem ser gerados a partir de geradores de imagens e animados pelo VASA-1, e o público nem perceberá que os personagens não são humanos.
Além do uso criativo da ferramenta, também pode ser usada para criar conteúdo com fins maliciosos. O potencial de uso indevido do VASA-1 pode ser sua utilização para deepfakes, tornando mais fácil para qualquer pessoa envolvida em criações de deepfake ampliar suas táticas maliciosas e gerar conteúdo enganoso e realista. Lembra do escândalo de ligações automáticas envolvendo a voz de Biden para impedir as pessoas de votar antes das eleições primárias? Agora poderia ser um robovídeo após a ligação, com expressões humanas extremamente realistas.
O risco potencial de uso indevido pode ser a razão pela qual a Microsoft limitou seus testes apenas aos seus pesquisadores. De acordo com os pesquisadores da Microsoft, a ferramenta pode ser usada para criar conteúdo enganoso e enganoso para se passar por humanos, assim como outras ferramentas, mas eles estão buscando aplicações de uso positivo. A Nvidia e a Runway AI também lançaram seus modelos para a mesma função, mas o VASA-1 parece ser muito mais realista e um candidato promissor.
O artigo de pesquisa pode ser visto aqui e a nota da Microsoft aqui.