Meta demonstrará seu modelo Movie Gen AI, que combina vídeo com áudio

A Meta apresentou o Movie Gen, um modelo generativo de IA focado na mídia, projetado para ajudar e inspirar cineastas, independentemente da escala do projeto.

A mensagem de texto será convertida em vídeo com som, mas qualquer potencial usuário interessado terá que esperar um pouco, pois não há lançamento público no horizonte.

No entanto, Meta reivindicada na sexta-feira (4 de outubro) está “compartilhando esta pesquisa porque acreditamos no poder desta tecnologia para ajudar as pessoas a se expressarem de novas maneiras e para fornecer oportunidades a pessoas que de outra forma não as teriam”.

A empresa disse que espera que um dia as pessoas possam “dar vida às suas visões artísticas” com o acesso de todos ao aplicativo.

O Movie Gen da Meta não é apenas um modelo avançado, pois combina uma “lançada” de modelos fundamentais com o mais poderoso elemento de texto para vídeo. Ao produzir vídeos de IA, o som é gerado para corresponder ao cenário ou tema do vídeo.

Pode ser o som de um trem saindo da plataforma da estação ou uma forte chuva durante uma tempestade. Se apropriado, música também é adicionada.

Como o filme Gen Meta foi treinado?

Diz-se que o Movie Gen e seus quatro “recursos” (geração de vídeo, geração de vídeo personalizada, edição de vídeo de precisão e geração de áudio) são derivados do uso de “uma coleção de ferramentas licenciadas e disponíveis publicamente” com conteúdo de vídeo. de plataformas Meta como Facebook e Instagram.

Um obstáculo anterior para geradores de vídeo era a capacidade de edição. Isto foi resolvido até certo ponto pela empresa de Mark Zuckerberg.

Movie Gen apresenta um método de edição de texto que você pode usar para edição básica. Poderia ser “alterar o fundo do céu noturno da paisagem urbana”, mas apenas faz alterações específicas.

O gerador de IA pode gerar até 16 segundos de conteúdo de vídeo a 16 quadros por segundo ou, alternativamente, você pode ter 10 segundos de vídeo a 24 quadros por segundo.

A saída de vídeo tem 768 pixels de largura, o que remonta aos tempos de 1024 × 768, mas é suficiente para combinar com outros formatos HD.

Alguns poderiam ter esperado a geração de voz, mas há boas razões pelas quais a Meta não deu esse passo. A geração de fala é muito difícil de dominar e também é controversa com o aumento do conteúdo deepfake.

O factor de risco está a aumentar no período que antecede as eleições presidenciais no final deste ano e o actual clima político.

Meta revelou suas intenções ao publicar sua pesquisa sobre geração de vídeo de IA e do que ela é capaz atualmente.

Crédito da imagem: Meta

O post Meta demonstra o modelo Movie Gen AI que combina vídeo com som apareceu pela primeira vez no ReadWrite.



Fonte