ThinkSound
Pioneirismo na Geração e Edição de Áudio com Raciocínio de Cadeia de Pensamento
Resumo
Embora a IA moderna tenha feito grandes avanços na geração de áudio a partir de vídeo,
criar som de alta fidelidade que realmente corresponda à nuance do conteúdo visual
continua sendo um grande obstáculo. O design de som profissional requer
raciocínio complexo sobre pistas visuais, acústica e tempo - uma habilidade que
tem sido difícil de replicar em IA.
Este artigo apresenta o ThinkSound, um framework inovador
que ensina a IA a "pensar" como um designer de som. Usando o raciocínio de
Cadeia de Pensamento (CoT), o ThinkSound divide a tarefa complexa
de geração de áudio em etapas lógicas e gerenciáveis. Isso permite
não apenas criar som do zero, mas também para edição e refinamento interativos,
focados em objetos, usando comandos simples de linguagem natural. Para potencializar isso,
também apresentamos o AudioCoT, um conjunto de dados inédito
projetado para treinar modelos nesse processo de raciocínio. Nossos experimentos mostram
que o ThinkSound estabelece um novo estado da arte em qualidade e relevância de áudio,
desempenhando excepcionalmente bem mesmo em cenas de filmes complexas e fora da distribuição.
Sinergia com Modelos de Geração de Vídeo
O ThinkSound adiciona perfeitamente paisagens sonoras ricas e sincronizadas a vídeos criados pelos principais modelos generativos. Os vídeos abaixo foram gerados por seus respectivos modelos; todo o áudio foi criado pelo ThinkSound.
Veo + ThinkSound
Sora + ThinkSound
MovieGen + ThinkSound
Comparações V2A no VGGSound (Em distribuição)
Clique em qualquer miniatura para carregar e reproduzir o vídeo, comparando o ThinkSound com outros modelos.
CoT | Verdade Fundamental | ThinkSound | MMAudio | See&Hear |
---|---|---|---|---|
Jogando Tênis Gere sons de tênis batendo em uma raquete e a bola quicando... | ![]() | ![]() | ![]() | ![]() |
Impressora Imprimindo Gere um som contínuo de impressora imprimindo com bipes periódicos... | ![]() | ![]() | ![]() | ![]() |
Rasgando Papel Comece com um som sutil de rasgo de papel sendo rasgado... | ![]() | ![]() | ![]() | ![]() |
Usando Máquinas de Costura Gere sons ambientes de sala de costura com zumbido consistente de máquina de costura... | ![]() | ![]() | ![]() | ![]() |
Comparações V2A no MovieGen Audio (Fora de distribuição)
Veja como o ThinkSound se sai em clipes de filmes desafiadores e fora da distribuição.
CoT | ThinkSound | Movie Gen Audio | MMAudio |
---|---|---|---|
Sons Suaves de Sucção Fundo suave e constante de sucção de chupeta leve... | ![]() | ![]() | ![]() |
Cordas Harmoniosas Cordas de violão zumbindo e vibrando... | ![]() | ![]() | ![]() |
Zumbido de TV Antiga Ruído de fundo ambiente com estática fraca e ruído branco... | ![]() | ![]() | ![]() |
Trovão Intenso Um zumbido de vento baixo e estalos ocasionais aumentam a atmosfera tempestuosa... | ![]() | ![]() | ![]() |
Criação Interativa de Foley Passo a Passo
Geração V2A → Foco no Objeto → Inpainting de Áudio
Geração V2A → Foco no Objeto → Edição de Áudio
Experimentos
Resultados Principais no VGGSound
O ThinkSound supera todas as linhas de base na maioria das métricas objetivas e em todas as métricas subjetivas, alcançando melhorias substanciais na qualidade do áudio e no alinhamento semântico.
Method | Objective Metrics | Subjective Metrics | Efficiency | |||||||
---|---|---|---|---|---|---|---|---|---|---|
FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAPcap ↑ | CLAPCoT ↑ | MOS-Q ↑ | MOS-A ↑ | Params | Time(s) ↓ | |
GT | - | - | - | 0.55 | 0.28 | 0.45 | 4.37±0.21 | 4.56±0.19 | - | - |
See&Hear | 118.95 | 2.26 | 2.30 | 1.20 | 0.32 | 0.35 | 2.75±1.08 | 2.87±0.99 | 415M | 19.42 |
V-AURA† | 46.99 | 2.23 | 1.83 | 0.65 | 0.23 | 0.37 | 3.42±1.03 | 3.20±1.17 | 695M | 14.00 |
FoleyCrafter | 39.15 | 2.06 | 1.89 | 1.21 | 0.41 | 0.34 | 3.08±1.21 | 2.63±0.88 | 1.20B | 3.84 |
Frieren† | 74.96 | 2.55 | 2.64 | 1.00 | 0.37 | 0.34 | 3.27±1.11 | 2.95±1.09 | 159M | - |
V2A-Mapper† | 48.10 | 2.50 | 2.34 | 1.23 | 0.38 | 0.32 | 3.31±1.02 | 3.16±1.04 | 229M | - |
MMAudio | 43.26 | 1.65 | 1.40 | 0.44 | 0.31 | 0.40 | 3.84±0.89 | 3.97±0.82 | 1.03B | 3.01 |
ThinkSound | 34.56 | 1.52 | 1.32 | 0.46 | 0.33 | 0.46 | 4.02±0.73 | 4.18±0.79 | 1.30B | 1.07 |
w/o CoT Reasoning | 39.84 | 1.59 | 1.40 | 0.48 | 0.29 | 0.41 | 3.91±0.83 | 4.04±0.75 | 1.30B | 0.98 |
Estudos de Ablação
Investigamos a contribuição de cada componente para validar a eficácia de nossas escolhas de design, com foco na codificação de texto e na integração multimodal.
Estratégias de Codificação de Texto
Method | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAP ↑ |
---|---|---|---|---|---|
CLIP | 39.84 | 1.59 | 1.40 | 0.48 | 0.41 |
T5 (CoT) | 37.65 | 1.54 | 1.35 | 0.46 | 0.44 |
CLIP + T5 | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
Integração Multimodal
Integration | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAP ↑ |
---|---|---|---|---|---|
audio only | 37.13 | 1.58 | 1.37 | 0.50 | 0.43 |
linear video | 38.96 | 1.58 | 1.38 | 0.46 | 0.45 |
gated video | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
Impacto do Tamanho do Modelo
Size | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAPCoT ↑ |
---|---|---|---|---|---|
Small | 40.80 | 1.64 | 1.38 | 0.46 | 0.41 |
Medium | 36.80 | 1.56 | 1.34 | 0.46 | 0.44 |
Large | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
Perguntas Frequentes
O ThinkSound é um framework avançado de IA projetado para gerar e editar áudio para vídeos. Diferente dos modelos tradicionais, ele usa um processo de raciocínio chamado Cadeia de Pensamento (CoT) para entender o contexto de um vídeo e criar som de alta qualidade e altamente relevante, muito como um designer de som profissional faria.
A Cadeia de Pensamento permite que o modelo divida uma tarefa complexa (como "criar uma trilha sonora para este vídeo") em etapas menores e lógicas. Por exemplo, ele pode primeiro identificar os principais objetos e ações, depois raciocinar sobre a acústica do ambiente e, finalmente, decidir sobre os sons apropriados e seu tempo. Esse processo passo a passo leva a uma geração de áudio mais precisa e consciente do contexto.
Três coisas principais: 1) Seu uso do raciocínio CoT para uma criação de som mais inteligente. 2) Sua interatividade, permitindo que os usuários editem áudio, foquem em objetos específicos e refinem o som usando linguagem natural. 3) É alimentado pelo AudioCoT, um conjunto de dados exclusivo construído especificamente para treinar este tipo de geração de áudio baseada em raciocínio.
Sim! Fornecemos uma demonstração interativa no Hugging Face Spaces, com link no topo desta página. Você também pode explorar o código-fonte no GitHub para executar o modelo você mesmo.