ThinkSound

Pioneirismo na Geração e Edição de Áudio com Raciocínio de Cadeia de Pensamento

Resumo


Embora a IA moderna tenha feito grandes avanços na geração de áudio a partir de vídeo, criar som de alta fidelidade que realmente corresponda à nuance do conteúdo visual continua sendo um grande obstáculo. O design de som profissional requer raciocínio complexo sobre pistas visuais, acústica e tempo - uma habilidade que tem sido difícil de replicar em IA.

Este artigo apresenta o ThinkSound, um framework inovador que ensina a IA a "pensar" como um designer de som. Usando o raciocínio de Cadeia de Pensamento (CoT), o ThinkSound divide a tarefa complexa de geração de áudio em etapas lógicas e gerenciáveis. Isso permite não apenas criar som do zero, mas também para edição e refinamento interativos, focados em objetos, usando comandos simples de linguagem natural. Para potencializar isso, também apresentamos o AudioCoT, um conjunto de dados inédito projetado para treinar modelos nesse processo de raciocínio. Nossos experimentos mostram que o ThinkSound estabelece um novo estado da arte em qualidade e relevância de áudio, desempenhando excepcionalmente bem mesmo em cenas de filmes complexas e fora da distribuição.

Sinergia com Modelos de Geração de Vídeo


O ThinkSound adiciona perfeitamente paisagens sonoras ricas e sincronizadas a vídeos criados pelos principais modelos generativos. Os vídeos abaixo foram gerados por seus respectivos modelos; todo o áudio foi criado pelo ThinkSound.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

Comparações V2A no VGGSound (Em distribuição)


Clique em qualquer miniatura para carregar e reproduzir o vídeo, comparando o ThinkSound com outros modelos.

CoTVerdade FundamentalThinkSoundMMAudioSee&Hear
Jogando Tênis
Gere sons de tênis batendo em uma raquete e a bola quicando...
Video thumbnail for Verdade Fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Impressora Imprimindo
Gere um som contínuo de impressora imprimindo com bipes periódicos...
Video thumbnail for Verdade Fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Rasgando Papel
Comece com um som sutil de rasgo de papel sendo rasgado...
Video thumbnail for Verdade Fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Usando Máquinas de Costura
Gere sons ambientes de sala de costura com zumbido consistente de máquina de costura...
Video thumbnail for Verdade Fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Tocando Bongo
Gere uma faixa de percussão animada com apenas batidas de tambor rítmicas...
Video thumbnail for Verdade Fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Cortando Comida
Gere sons rítmicos de corte consistentes com o corte de carne ou vegetais...
Video thumbnail for Verdade Fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Pessoas Comendo Batatas Fritas
Gere áudio com foco em sons de mastigação claros e rítmicos...
Video thumbnail for Verdade Fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

Comparações V2A no MovieGen Audio (Fora de distribuição)


Veja como o ThinkSound se sai em clipes de filmes desafiadores e fora da distribuição.

CoTThinkSoundMovie Gen AudioMMAudio
Sons Suaves de Sucção
Fundo suave e constante de sucção de chupeta leve...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Cordas Harmoniosas
Cordas de violão zumbindo e vibrando...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Zumbido de TV Antiga
Ruído de fundo ambiente com estática fraca e ruído branco...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Trovão Intenso
Um zumbido de vento baixo e estalos ocasionais aumentam a atmosfera tempestuosa...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Raspagem Aguda
Som de raspagem agudo e sustentado de uma ferramenta em uma haste de metal...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Teclas de Metal Batendo
Som rítmico de uma máquina de escrever antiga, com foco no som metálico agudo...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Skate Rangendo
Rolamento constante em uma superfície dura, com sons agudos de raspagem e rangido...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

Criação Interativa de Foley Passo a Passo


Geração V2A → Foco no Objeto → Inpainting de Áudio

Gere uma melodia alegre de ukulele com dedilhado leve e vocais harmoniosos de duas meninas cantando juntas.
Áudio gerado (pareado com vídeo silencioso):
Agora, foque apenas no canto e nos movimentos das mãos na região selecionada.
Áudio gerado para o objeto selecionado:
Repare o segmento mascarado (ruidoso) neste clipe de áudio. Audio Spectrogram with masked region
Áudio reparado: Repaired Audio Spectrogram

Geração V2A → Foco no Objeto → Edição de Áudio

Gere sons de vento suaves com chilrear consistente de toutinegra.
Áudio gerado (pareado com vídeo silencioso):
Foque no pássaro, reduza o ruído do vento e torne o chilrear nítido e claro.
Áudio gerado para o objeto selecionado:
Mantenha o chilrear da toutinegra e adicione uma chamada ocasional de pisco para contraste. Original Audio Spectrogram
Áudio editado: Edited Audio Spectrogram

Experimentos


Resultados Principais no VGGSound

O ThinkSound supera todas as linhas de base na maioria das métricas objetivas e em todas as métricas subjetivas, alcançando melhorias substanciais na qualidade do áudio e no alinhamento semântico.

Tabela 1: Comparação do nosso modelo de fundação ThinkSound...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

Estudos de Ablação

Investigamos a contribuição de cada componente para validar a eficácia de nossas escolhas de design, com foco na codificação de texto e na integração multimodal.

Estratégias de Codificação de Texto

Tabela 2: Comparação de estratégias de fusão de codificadores de texto...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

Integração Multimodal

Tabela 3: Comparação de mecanismos de integração multimodal
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

Impacto do Tamanho do Modelo

Tabela 4: Impacto dos resultados do tamanho do modelo.
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

Perguntas Frequentes


O ThinkSound é um framework avançado de IA projetado para gerar e editar áudio para vídeos. Diferente dos modelos tradicionais, ele usa um processo de raciocínio chamado Cadeia de Pensamento (CoT) para entender o contexto de um vídeo e criar som de alta qualidade e altamente relevante, muito como um designer de som profissional faria.

A Cadeia de Pensamento permite que o modelo divida uma tarefa complexa (como "criar uma trilha sonora para este vídeo") em etapas menores e lógicas. Por exemplo, ele pode primeiro identificar os principais objetos e ações, depois raciocinar sobre a acústica do ambiente e, finalmente, decidir sobre os sons apropriados e seu tempo. Esse processo passo a passo leva a uma geração de áudio mais precisa e consciente do contexto.

Três coisas principais: 1) Seu uso do raciocínio CoT para uma criação de som mais inteligente. 2) Sua interatividade, permitindo que os usuários editem áudio, foquem em objetos específicos e refinem o som usando linguagem natural. 3) É alimentado pelo AudioCoT, um conjunto de dados exclusivo construído especificamente para treinar este tipo de geração de áudio baseada em raciocínio.

Sim! Fornecemos uma demonstração interativa no Hugging Face Spaces, com link no topo desta página. Você também pode explorar o código-fonte no GitHub para executar o modelo você mesmo.