2026년 4월 오픈소스 다크호스

HappyHorse-1.0

거의 하룻밤 사이에 리더보드 상단으로 치고 올라온 새로운 오픈 비디오 모델.

HappyHorse-1.0은 Happy Horse 1.0으로도 표기되며, 네이티브 오디오 생성, 강한 인물 표현, 연구실 지표보다 실제 사용자 선호를 중시하는 제품 방향성을 갖춘 15B 멀티모달 텍스트/이미지-투-비디오 모델입니다.

랭킹 보기 접근 방법 보기

Arena 순위

무음 1위, 오디오 포함 2위

Artificial Analysis Video Arena에서 강한 성능을 보이며 여러 주요 클로즈드 모델을 앞섰습니다.

핵심 모델

15B 단일 스트림 Transformer

총 40개 레이어로 구성되며 양 끝은 모달리티 투영, 가운데는 공유 스택으로 이루어집니다.

생성 속도

5초 256p 약 2초

DMD-2 증류로 8 스텝 추론을 구현해 오디오-비디오 합성을 빠르게 수행합니다.

공개 방식

익명으로 순위 상승 후 정체 공개

처음에는 리더보드에서 먼저 화제가 되었고 이후 커뮤니티가 프로젝트 배경을 밝혀냈습니다.

배경

팀, 계보, 제품 의도

HappyHorse-1.0은 Alibaba Taotian 생태계와 연결된 실용 중심의 오픈 모델 시도로 소개되며, 이커머스, 숏폼 비디오, 디지털 휴먼 같은 실제 사용 사례를 강하게 겨냥합니다.

핵심 팀

Taotian Group Future Life Lab의 Zhang Di가 주도합니다. 공개 정보에 따르면 이 연구실은 과거 ATH-AI 혁신 계보를 잇는 조직으로, 멀티모달 생산 시스템과 빠른 논문 발표로 알려져 있습니다.

협력 배경과 선행 프로젝트

Sand.ai 및 상하이 지능연산연구소 GAIR Lab과의 협업 배경이 언급되며, 2026년 3월 공개된 daVinci-MagiHuman 기술 계보를 이어가는 것으로 보입니다.

무엇을 해결하려는가

공식 서사는 실제 사용자 체감 최적화, 오픈 모델의 상한 검증, 향후 상용 워크플로 준비를 강조하며 단순 벤치마크 과시에 머물지 않습니다.

아키텍처

15B 통합 멀티모달 생성 스택

이 모델은 일반적인 cross-attention 분기 구조 대신 단일 스트림 self-attention 구조를 채택해 조건 표현을 통합하고 학습과 추론 안정성을 높이려 합니다.

40층 단일 스트림 Transformer

텍스트, 비디오, 오디오 토큰을 하나의 시퀀스로 넣어 self-attention으로 처리하며, 명시적인 cross-attention에 의존하지 않습니다.

샌드위치 모달리티 배치

앞 4개 층과 뒤 4개 층이 text/video/audio별 투영을 담당하고, 가운데 32개 층은 파라미터를 공유합니다.

고효율 추론 경로

timestep 임베딩 단순화, Per-Head Gating, DMD-2 기반 8스텝 증류, MagiCompiler에 의한 약 1.2배 종단간 가속이 핵심입니다.

역량

HappyHorse-1.0의 핵심 강점

현재 공개 반응은 오디오-비디오 동기화, 립싱크 품질, 인물 리얼리즘, 그리고 멀티샷 일관성에 집중되어 있습니다.

텍스트-투-비디오 / 이미지-투-비디오

텍스트 프롬프트만으로 생성할 수 있을 뿐 아니라 참조 이미지나 latent 조건도 지원하며, 5~12초 길이와 다양한 화면 비율을 다룹니다.

네이티브 오디오 생성

대사, 환경음, Foley를 같은 파이프라인에서 함께 생성해 후반 더빙 부담을 줄입니다.

멀티샷 스토리텔링

하나의 프롬프트만으로 장면 전환, 샷 변화, 얼굴·의상·체형의 일관성을 유지할 수 있으며 LoRA 프리셋으로 스타일 제어도 가능합니다.

다국어 립싱크

공개 자료에 따르면 표준중국어, 광둥어, 영어, 일본어, 한국어, 독일어, 프랑스어를 포함한 7개 언어를 기본 지원합니다.

평가

리더보드 상승세와 실제 강점

HappyHorse-1.0에 대한 관심은 리더보드 성적과 블라인드 선호도 반응이 함께 견인하고 있습니다.

Artificial Analysis Video Arena

공개 정리에 따르면 텍스트/이미지-투-비디오 무음 부문 1위, 오디오 포함 부문 2위, 이미지-투-비디오 무음 부문 1위를 기록하며 Seedance 2.0, Kling 2.1, Ovi 1.1, LTX 2.3 등을 앞섰습니다.

인간 선호 승률

블라인드 투표에서 Ovi 1.1과 LTX 2.3 대비 높은 승률을 보여, 내부 지표뿐 아니라 실제 사용자 비교에서도 강함을 입증했습니다.

객관 지표

공개 비교에서는 시각 품질, 텍스트 정합성, 물리적 일관성, 특히 경쟁 모델보다 낮은 립싱크 단어 오류율이 강조됩니다.

알려진 한계

인물 중심과 단일 주제 영상은 특히 강하지만, 복수 인물이나 혼잡한 장면은 아직 상대적으로 약한 영역으로 언급됩니다.

접근

지금은 어떻게 쓰고, 다음은 무엇을 기다리나

현재 이 모델은 바로 써볼 수 있는 클라우드 체험으로 소개되는 동시에, 완전한 오픈 셀프호스팅 스택으로 공개되길 기대받고 있습니다.

클라우드 데모

happyhorse.video, happy-horse.art 같은 공개 페이지는 텍스트/이미지 입력, HD 출력, API 스타일 통합을 제공하는 브라우저 진입점으로 제시됩니다.

로컬 배포

정식 오픈 릴리스에는 베이스 모델, 증류 모델, 초해상도 모듈, 추론 코드가 포함될 것으로 예상됩니다. 초기에는 H100급 GPU가 권장되며 이후 커뮤니티 양자화로 진입 장벽이 더 낮아질 전망입니다.

다음 공개 포인트

가까운 로드맵으로는 기술 보고서, 워터마크 또는 출처 추적 도구, 감사 메커니즘, 그리고 커뮤니티 적응 확대가 언급됩니다.

왜 중요한가

HappyHorse-1.0이 중요한 이유는 사용자 선호 중심 비교 환경에서 오픈 모델이 최상위 클로즈드 시스템과 직접 경쟁할 수 있음을 보여주기 때문입니다. 이 흐름이 유지되면 가격 전략, 파인튜닝과 양자화 속도, 세로형 비디오 제작 스택의 비용 구조까지 재편할 수 있습니다.