ThinkSound

Pioneirismo na Geração e Edição de Áudio com Raciocínio de Cadeia de Pensamento

Resumo

Embora a IA moderna tenha feito grandes avanços na geração de áudio a partir de vídeo, criar som de alta fidelidade que realmente corresponda à nuance do conteúdo visual continua sendo um grande obstáculo. O design de som profissional requer raciocínio complexo sobre pistas visuais, acústica e tempo - uma habilidade que tem sido difícil de replicar em IA.

Este artigo apresenta o ThinkSound, um framework inovador que ensina a IA a "pensar" como um designer de som. Usando o raciocínio de Cadeia de Pensamento (CoT), o ThinkSound divide a tarefa complexa de geração de áudio em etapas lógicas e gerenciáveis. Isso permite não apenas criar som do zero, mas também para edição e refinamento interativos, focados em objetos, usando comandos simples de linguagem natural. Para potencializar isso, também apresentamos o AudioCoT, um conjunto de dados inédito projetado para treinar modelos nesse processo de raciocínio. Nossos experimentos mostram que o ThinkSound estabelece um novo estado da arte em qualidade e relevância de áudio, desempenhando excepcionalmente bem mesmo em cenas de filmes complexas e fora da distribuição.

Sinergia com Modelos de Geração de Vídeo

O ThinkSound adiciona perfeitamente paisagens sonoras ricas e sincronizadas a vídeos criados pelos principais modelos generativos. Os vídeos abaixo foram gerados por seus respectivos modelos; todo o áudio foi criado pelo ThinkSound.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

Comparações V2A no VGGSound (Em distribuição)

Clique em qualquer miniatura para carregar e reproduzir o vídeo, comparando o ThinkSound com outros modelos.

CoT	Verdade Fundamental	ThinkSound	MMAudio	See&Hear	V-AURA	Frieren	V2A-Mapper	FoleyCrafter
Jogando Tênis Gere sons de tênis batendo em uma raquete e a bola quicando...
Impressora Imprimindo Gere um som contínuo de impressora imprimindo com bipes periódicos...
Rasgando Papel Comece com um som sutil de rasgo de papel sendo rasgado...
Usando Máquinas de Costura Gere sons ambientes de sala de costura com zumbido consistente de máquina de costura...
Tocando Bongo Gere uma faixa de percussão animada com apenas batidas de tambor rítmicas...
Cortando Comida Gere sons rítmicos de corte consistentes com o corte de carne ou vegetais...
Pessoas Comendo Batatas Fritas Gere áudio com foco em sons de mastigação claros e rítmicos...

Comparações V2A no MovieGen Audio (Fora de distribuição)

Veja como o ThinkSound se sai em clipes de filmes desafiadores e fora da distribuição.

CoT	ThinkSound	Movie Gen Audio	MMAudio
Sons Suaves de Sucção Fundo suave e constante de sucção de chupeta leve...
Cordas Harmoniosas Cordas de violão zumbindo e vibrando...
Zumbido de TV Antiga Ruído de fundo ambiente com estática fraca e ruído branco...
Trovão Intenso Um zumbido de vento baixo e estalos ocasionais aumentam a atmosfera tempestuosa...
Raspagem Aguda Som de raspagem agudo e sustentado de uma ferramenta em uma haste de metal...
Teclas de Metal Batendo Som rítmico de uma máquina de escrever antiga, com foco no som metálico agudo...
Skate Rangendo Rolamento constante em uma superfície dura, com sons agudos de raspagem e rangido...

Criação Interativa de Foley Passo a Passo

Geração V2A → Foco no Objeto → Inpainting de Áudio

Gere uma melodia alegre de ukulele com dedilhado leve e vocais harmoniosos de duas meninas cantando juntas.

Áudio gerado (pareado com vídeo silencioso):

Agora, foque apenas no canto e nos movimentos das mãos na região selecionada.

Áudio gerado para o objeto selecionado:

Repare o segmento mascarado (ruidoso) neste clipe de áudio.

Áudio reparado:

Geração V2A → Foco no Objeto → Edição de Áudio

Gere sons de vento suaves com chilrear consistente de toutinegra.

Áudio gerado (pareado com vídeo silencioso):

Foque no pássaro, reduza o ruído do vento e torne o chilrear nítido e claro.

Áudio gerado para o objeto selecionado:

Mantenha o chilrear da toutinegra e adicione uma chamada ocasional de pisco para contraste.

Áudio editado:

Experimentos

Resultados Principais no VGGSound

O ThinkSound supera todas as linhas de base na maioria das métricas objetivas e em todas as métricas subjetivas, alcançando melhorias substanciais na qualidade do áudio e no alinhamento semântico.

Tabela 1: Comparação do nosso modelo de fundação ThinkSound...
Method	Objective Metrics						Subjective Metrics		Efficiency
	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_cap ↑	CLAP_CoT ↑	MOS-Q ↑	MOS-A ↑	Params	Time(s) ↓
GT	-	-	-	0.55	0.28	0.45	4.37±0.21	4.56±0.19	-	-
See&Hear	118.95	2.26	2.30	1.20	0.32	0.35	2.75±1.08	2.87±0.99	415M	19.42
V-AURA†	46.99	2.23	1.83	0.65	0.23	0.37	3.42±1.03	3.20±1.17	695M	14.00
FoleyCrafter	39.15	2.06	1.89	1.21	0.41	0.34	3.08±1.21	2.63±0.88	1.20B	3.84
Frieren†	74.96	2.55	2.64	1.00	0.37	0.34	3.27±1.11	2.95±1.09	159M	-
V2A-Mapper†	48.10	2.50	2.34	1.23	0.38	0.32	3.31±1.02	3.16±1.04	229M	-
MMAudio	43.26	1.65	1.40	0.44	0.31	0.40	3.84±0.89	3.97±0.82	1.03B	3.01
ThinkSound	34.56	1.52	1.32	0.46	0.33	0.46	4.02±0.73	4.18±0.79	1.30B	1.07
w/o CoT Reasoning	39.84	1.59	1.40	0.48	0.29	0.41	3.91±0.83	4.04±0.75	1.30B	0.98

Estudos de Ablação

Investigamos a contribuição de cada componente para validar a eficácia de nossas escolhas de design, com foco na codificação de texto e na integração multimodal.

Estratégias de Codificação de Texto

Tabela 2: Comparação de estratégias de fusão de codificadores de texto...
Method	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
CLIP	39.84	1.59	1.40	0.48	0.41
T5 (CoT)	37.65	1.54	1.35	0.46	0.44
CLIP + T5	34.56	1.52	1.32	0.46	0.46

Integração Multimodal

Tabela 3: Comparação de mecanismos de integração multimodal
Integration	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
audio only	37.13	1.58	1.37	0.50	0.43
linear video	38.96	1.58	1.38	0.46	0.45
gated video	34.56	1.52	1.32	0.46	0.46

Impacto do Tamanho do Modelo

Tabela 4: Impacto dos resultados do tamanho do modelo.
Size	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_CoT ↑
Small	40.80	1.64	1.38	0.46	0.41
Medium	36.80	1.56	1.34	0.46	0.44
Large	34.56	1.52	1.32	0.46	0.46

Perguntas Frequentes

O ThinkSound é um framework avançado de IA projetado para gerar e editar áudio para vídeos. Diferente dos modelos tradicionais, ele usa um processo de raciocínio chamado Cadeia de Pensamento (CoT) para entender o contexto de um vídeo e criar som de alta qualidade e altamente relevante, muito como um designer de som profissional faria.

A Cadeia de Pensamento permite que o modelo divida uma tarefa complexa (como "criar uma trilha sonora para este vídeo") em etapas menores e lógicas. Por exemplo, ele pode primeiro identificar os principais objetos e ações, depois raciocinar sobre a acústica do ambiente e, finalmente, decidir sobre os sons apropriados e seu tempo. Esse processo passo a passo leva a uma geração de áudio mais precisa e consciente do contexto.

Três coisas principais: 1) Seu uso do raciocínio CoT para uma criação de som mais inteligente. 2) Sua interatividade, permitindo que os usuários editem áudio, foquem em objetos específicos e refinem o som usando linguagem natural. 3) É alimentado pelo AudioCoT, um conjunto de dados exclusivo construído especificamente para treinar este tipo de geração de áudio baseada em raciocínio.

Sim! Fornecemos uma demonstração interativa no Hugging Face Spaces, com link no topo desta página. Você também pode explorar o código-fonte no GitHub para executar o modelo você mesmo.