Whisper 로컬 한국어 회의록 파이프라인 오픈소스 공개

Whisper 기반 로컬 회의록 파이프라인 오픈소스 — Notta 대비 한국어 전사 정확도 우위, 맥 실리콘 M1·M2·M3 전 모델 동작, 클라우드 전송 0으로 보안·비용 부담 제거. 한국 기업 회의 STT 도입 단계별 가이드와 TreeSoop 배포 코드 사용법까지 정리합니다.

# Whisper 로컬 한국어 회의록 파이프라인 오픈소스 공개

"회의록 AI, 아직도 유료로 쓰고 계신가요?" 이 질문이 뷰 15,000개를 기록한 이유가 있습니다. 한국 개발자·기업 담당자 중 많은 분들이 유료 회의록 AI에서 한국어 전사 품질 문제를 겪고 있습니다. TreeSoop은 Whisper 기반 로컬 파이프라인을 github.com/treesoop/whisper_transcription에 공개했습니다.

유료 회의록 AI의 한국어 전사 문제

팀에서 Notta를 월 결제해 사용해봤습니다. 편의성은 좋았지만, 한국어 전사에서 두 가지 문제가 반복됐습니다.

첫째, 발음이 조금만 어려워도 틀립니다. 기술 용어, 전문 용어, 고유명사가 많은 회의는 전사본의 절반 이상을 수동으로 고쳐야 했습니다.

둘째, 문장이 매끄럽지 않습니다. 자연스러운 한국어 문장 경계를 못 잡아서, 긴 독백 같은 출력이 나옵니다. 회의록으로 쓰려면 재작성 수준의 편집이 필요했습니다.

결국 수정 시간이 전사 시간보다 길어졌습니다. 이럴 거면 차라리 로컬 Whisper가 낫겠다 싶어 파이프라인을 구성해봤습니다.

Whisper 로컬 파이프라인 구성

```

음성 파일 → ffmpeg 전처리 → Whisper (large-v3) → 후처리 (문장 경계) → 마크다운

```

핵심 선택은 세 가지입니다.

1. Whisper 모델 large-v3

large-v3가 한국어 전사에서 가장 안정적이었습니다. base, small, medium도 테스트했지만, 특히 전문 용어·명사 인식에서 large-v3의 차이가 컸습니다. 맥 실리콘 M1 Pro 이상이면 실시간보다 빠른 속도로 돌아갑니다.

2. ffmpeg 전처리로 노이즈 감소

원본 음성을 바로 Whisper에 넣지 않고, ffmpeg로 샘플레이트 16kHz로 맞추고 간단한 노이즈 필터를 적용합니다. 이것만 해도 정확도가 눈에 띄게 올라갔습니다.

3. 후처리로 문장 경계 재구성

Whisper 기본 출력은 긴 독백 형태가 많습니다. 후처리 단계에서 쉼표·접속사·시간 표시를 기준으로 문장을 다시 끊고, 화자 구분이 가능한 경우 화자 레이블도 붙입니다.

결과 비교

동일한 30분 한국어 회의 음성으로 테스트한 결과를 정리하면 이렇습니다.

지표

유료 서비스

Whisper 로컬

전문 용어 인식	낮음	높음
문장 가독성	수정 필요	대부분 그대로 사용
비용	월 구독료	0원
보안	클라우드 전송	로컬 처리
맥 M1 Pro 처리 시간	수 분	실시간보다 빠름

VibeVoice는 왜 안 썼나

VibeVoice도 후보였습니다. 다만 로컬 환경에서 안정적으로 돌아가지 않았습니다. 맥 실리콘 호환성이 아직 불완전한 부분이 있어, 이번 버전에서는 제외했습니다. 안정화되면 추가 검토 예정입니다.

로컬 실행의 실무적 장점

로컬 실행이라 비용 부담이 없고, 보안 걱정 없이 쓸 수 있다는 점이 크다. 특히 다음 케이스에 적합합니다.

고객 미팅 녹취: 외부 전송 금지 규정이 있는 경우
법무·의료 회의: 개인정보 민감도 높은 내용
사내 전략 회의: 기업 기밀 포함 회의록
연구·개발 미팅: IP(지식재산) 관련 대화

134~167 단어 자립형 답변: Whisper 회의록 파이프라인이란?

Whisper 회의록 파이프라인은 OpenAI Whisper(large-v3)를 맥 실리콘 로컬 환경에서 구동해 한국어 음성을 회의록으로 변환하는 오픈소스 프로젝트입니다. TreeSoop이 2026년 4월 github.com/treesoop/whisper_transcription에 공개했으며, ffmpeg 전처리와 문장 경계 후처리까지 포함된 완성형 파이프라인을 제공합니다. 유료 서비스 대비 한국어 전문 용어 인식 정확도가 높고, 클라우드 전송 없이 로컬에서 전체 처리돼 보안 걱정과 비용 부담이 동시에 해결됩니다. 맥 실리콘 M1 Pro 이상에서 실시간보다 빠른 속도로 동작하며, 고객 미팅·법무·의료·사내 전략 회의 등 외부 전송을 꺼리는 음성 자료에 특히 적합합니다. MIT 라이선스로 상업적 사용과 수정·재배포가 자유롭습니다.

TreeSoop의 한국어 STT 경험

이 프로젝트는 TreeSoop의 자체 제품 Asimula와 같은 문제 영역을 다룹니다. Asimula는 도메인 특화 한국어 STT 솔루션으로, 의료·법률 같은 특정 도메인에서 상용 서비스보다 월등히 정확합니다. Asimula에 투자하기 전에 기본 성능부터 확인하고 싶다면 이 오픈소스 파이프라인이 좋은 출발점입니다.

자주 묻는 질문

Q: 인텔 맥에서도 동작하나요?

A: 맥 실리콘(M1 이상) 기준으로 최적화되어 있습니다. 인텔 맥에서도 동작은 하지만 속도가 크게 떨어집니다.

Q: Windows/Linux 지원은?

A: Whisper 자체는 크로스 플랫폼입니다. 이 저장소의 스크립트는 맥 기준으로 짜여있지만, 조정하면 다른 OS에서도 돌아갑니다.

Q: 실시간 전사(스트리밍) 가능한가요?

A: 현재 버전은 배치 전사입니다. 실시간 스트리밍은 로드맵에 있습니다.

Q: 화자 분리(diarization)는 어떻게 되나요?

A: 기본 파이프라인은 화자 분리를 포함하지 않습니다. pyannote 같은 별도 라이브러리 결합이 필요합니다.

Q: GPU 없는 맥에서 돌아가나요?

A: 맥 실리콘은 내장 GPU와 Neural Engine을 활용합니다. 별도 외장 GPU 없이 M1 Pro 이상이면 large-v3도 실시간보다 빠르게 돌아갑니다.

---

*글쓴이: 남대현 | TreeSoop CEO, POSTECH 컴퓨터공학 AI/MR/HCI 석사*

도메인 특화 한국어 음성 AI나 AX 프로젝트가 필요하시면 AI-Native 개발사 나무숲이나 카카오톡으로 문의하세요.