인공지능 (AI)

음성 복제 가능한 세계 최초 실시간 음성 대화 AI 오픈소스, Chroma 1.0

sobal 2026. 2. 4. 02:03

저번 달에 세계 최초 오픈소스 실시간 엔드투엔드 음성 대화 모델이 공개됐다.

https://www.arxiv.org/abs/2601.11141

 

FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering persona

arxiv.org

 

Chroma 1.0은 FlashLabs에서 공개한 오픈소스 실시간 음성‑대화(Speech-to-Speech) 모델로, 목소리를 목소리 그대로 이해하고 답하는 걸 목표로 하는 4B급 엔드투엔드 음성 AI다.

 

간단정리

 

이 모델에 대해서 간단하게 정리하자면,

  • 실시간 음성 대화 모델: 사용자의 음성을 입력으로 받아, 다시 음성으로 직접 응답하는 구조(S2S)라서 중간에 ASR → LLM → TTS로 쪼개지지 않는다.
  • 파라미터 규모: 약 40억(4B) 파라미터로, 로컬/개인용 GPU에서도 돌리기 쉬운 경량 고성능을 지향한다.
  • 오픈소스: 논문, 코드, 모델 가중치가 전부 공개되어 있어 GitHub와 Hugging Face에서 바로 내려받아 쓸 수 있는 형태다.

 

핵심 특징은 다음과 같이 정리할 수 있다.

  • 실시간성: 엔드투엔드 지연이 1초 미만(논문 기준 RTF 0.43, TTFT 약 150ms 수준으로 보고)이라 음성 통화하듯 끊김 없이 대화가 가능하다.
  • 음성 복제(voice cloning): 몇 초짜리 짧은 레퍼런스 음성만으로도 화자의 음색·톤을 상당히 정확하게 복제하며, 사람 기준 베이스라인보다 화자 유사도가 10.96% 높다고 보고된다.
  • 대화·추론 능력: 단순 읽기 수준이 아니라, 논리적 질의응답·스토리텔링 등 다중 턴 대화에서 LLM급 추론과 자연스러운 구어 대화를 지원한다.
  • 스트리밍 생성: 텍스트 토큰과 오디오 토큰을 1:2 비율로 교차 스케줄링해(텍스트‑오디오 토큰 인터리빙) 말하면서 생각하는 것처럼 연속적으로 말을 이어간다.

 

모델의 구조와 포인트

 

이 모델만의 구조와 포인트는 다음과 같이 정리된다.

  • End-to-end S2S: 음성 토크나이저 + 신경 오디오 코덱을 사용해 음성을 이산 토큰으로 바꾸고, LLM이 그 토큰 시퀀스를 직접 처리해 다시 오디오 토큰을 내보내는 구조다.
  • 텍스트‑오디오 멀티모달: 텍스트와 음성 피처를 함께 쓰기 때문에, 억양·리듬 같은 패러랭귀지 정보를 어느 정도 유지하면서도 의미·문맥 이해를 같이 잡는다.
  • 스피커 아이덴티티 유지: 여러 턴 동안 같은 화자 목소리를 유지하도록 학습되어 있어, 긴 대화에서도 "같은 사람과 말하는 느낌"을 준다는 점을 주요 강점으로 내세운다.

https://www.reddit.com/r/StableDiffusion/comments/1qj7n6h/chroma_10_a_realtime_endtoend_spoken_dialogue/

 

Reddit의 StableDiffusion 커뮤니티: Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning

StableDiffusion 커뮤니티에서 이 게시물을 비롯한 다양한 콘텐츠를 살펴보세요

www.reddit.com

 

모델의 활용 방안은 매우 무궁무진하지만 굳이 말하자면 음성 상담 자동화, 버추얼 유튜버의 가상 목소리, 오디오 북 정도가 있는 것 같다. 개인적으로는 개인 프로젝트 영역에서 외부 api를 사용하지 않고 음성 ai를 구현할 수 있다는 점이 제일 좋은 것 같다.

참고로 연구진은 모델/코드를 GitHub(FlashLabs-Chroma)와 Hugging Face(Chroma-4B)에 공개해 두었고, 일반적인 GPU 환경(예: 3090급 이상)에서 실시간 근처 성능을 목표로 한다고 했다.

 

이전 모델들과 비교하면 다음과 같다.

 

전체 용량은 찾아보니 대략 20GB 정도 되는데 이 수십 GB 단위의 AI 용량을 볼 때마다 아예 새로운 PC를 맞추고 싶다는 생각이 든다.

 

 

 

반응형