"VASA-1 da Microsoft: Crie rostos falantes realistas a partir de apenas uma imagem"

Em um recente artigo, a Microsoft apresentou um novo modelo de IA que produz uma cabeça falante realista, gerada apenas a partir do upload de uma fotografia estática e uma amostra de voz.

O novo modelo é chamado VASA-1 e requer apenas uma foto de retrato e um arquivo de áudio da voz, combinando-os para criar um vídeo curto de uma cabeça falante com expressões faciais, sincronização labial e movimentos de cabeça. A cabeça produzida até mesmo pode cantar músicas, na voz enviada no momento da criação.

A Microsoft VASA-1 é uma grande inovação para animação.

De acordo com a Microsoft, o novo modelo de IA ainda está em fase de pesquisa e não há planos de lançá-lo ao público em geral. Somente os pesquisadores da Microsoft têm acesso a ele. No entanto, a empresa compartilhou várias demonstrações impressionantes que mostram realismo impressionante e movimentos labiais extremamente naturais.

Fonte: Microsoft.

A demonstração mostra pessoas que parecem reais, como se estivessem sentadas na frente de uma câmera sendo filmadas. Os movimentos das cabeças são realistas e parecem bastante naturais, e a sincronização labial com o áudio é excepcional, com poucas falhas perceptíveis. A sincronização geral da boca é fenomenal.

A Microsoft afirmou que o modelo foi desenvolvido para animar personagens virtuais e que todas as pessoas mostradas na demonstração são sintéticas, geradas a partir do DALL-E, o gerador de imagens da OpenAI. Portanto, acreditamos que se ele pode animar um modelo gerado por IA, obviamente há muito mais potencial para animar fotos de qualquer pessoa real, com maior realismo e facilidade de manipulação.

Possíveis usos do VASA-1 e seu potencial de uso indevido

Fonte: Microsoft.

Se olharmos para o potencial do VASA-1 para uso prático, em primeiro lugar, ele pode ser usado para animar personagens em filmes animados, dando-lhes uma sensação mais realista com expressões faciais naturais e movimentos de cabeça. Outra possível aplicação seria em jogos de vídeo game, pelo mesmo motivo. Pense em jogos como Grand Theft Auto e similares. No futuro, ele pode ser usado para filmes ou séries gerados por IA de hiper realismo, em que os personagens podem ser gerados a partir de geradores de imagens e animados pelo VASA-1, e o público nem perceberá que os personagens não são humanos.

Além do uso criativo da ferramenta, também pode ser usada para criar conteúdo com fins maliciosos. O potencial de uso indevido do VASA-1 pode ser sua utilização para deepfakes, tornando mais fácil para qualquer pessoa envolvida em criações de deepfake ampliar suas táticas maliciosas e gerar conteúdo enganoso e realista. Lembra do escândalo de ligações automáticas envolvendo a voz de Biden para impedir as pessoas de votar antes das eleições primárias? Agora poderia ser um robovídeo após a ligação, com expressões humanas extremamente realistas.

O risco potencial de uso indevido pode ser a razão pela qual a Microsoft limitou seus testes apenas aos seus pesquisadores. De acordo com os pesquisadores da Microsoft, a ferramenta pode ser usada para criar conteúdo enganoso e enganoso para se passar por humanos, assim como outras ferramentas, mas eles estão buscando aplicações de uso positivo. A Nvidia e a Runway AI também lançaram seus modelos para a mesma função, mas o VASA-1 parece ser muito mais realista e um candidato promissor.

O artigo de pesquisa pode ser visto aqui e a nota da Microsoft aqui.

“VASA-1 da Microsoft: Crie rostos falantes realistas a partir de apenas uma imagem”

Google pagou R$100 bilhões a Apple em 2022 para ser o buscador padrão do Safari

Renzo Protocol – Rez Criptomoeda: Inovação e Desafios no Mercado de Restaking de Criptomoedas

Investindo em Defesa: Conheça as Melhores Ações do Setor para 2024

Google Anuncia Proibição de Publicidade Política para as Eleições Municipais de 2024

Get notified whenever we post something new!

Leia também

O que o investidor deve fazer com as criptos após ataque do Irã a Israel

Governo adia novamente lançamento do programa sobre mercado de crédito

Bancos e empresas agrícolas têm potencial com normalização da economia argentina

Descubra o Potencial de Lucro no Mercado Cripto com Solana (SOL), Shiba Inu (SHIB) e Furrever Token (FURR): Análise de Investimento

Previsão de Preços do Bitcoin, Ethereum e XRP para Esta Semana: Os Ursos Dominarão o Halving?

“A Resiliência do Bitcoin: Como a Criptomoeda se Recupera Após os Ataques do Irã a Israel”

Google pagou R$100 bilhões a Apple em 2022 para ser o buscador padrão do Safari

Renzo Protocol – Rez Criptomoeda: Inovação e Desafios no Mercado de Restaking de Criptomoedas

Investindo em Defesa: Conheça as Melhores Ações do Setor para 2024

Economia aos cofres públicos com novo Perse será de R$ 30 bi até 2026, diz Haddad

Categorias de notícias