WhisperDesktop – Whisper AI GUI
by OpenAI | Utilities & Operating Systems | FREE
개발자 | Const-me |
용도 | 음성 인식/번역/변환, 자막생성 |
운영체제 | Windows 8.1 / 10 / 11 |
라이선스 | 무료 프리웨어 |
용량 | 465KB |
📋 개요
<Whisper AI>는 Open AI에서 만들고 출시한 최초의 자동 음성인식 및 음성번역 모델로, 외국어는 물론 한국어 인식 능력이 매우 뛰어나기 때문에 현재 많은 곳에서 활용되고 있어요. 다만 Whisper WebUI 버전을 로컬에 설치하려면 Git과 Python 패키지를 설치해야 하며 이후 파이썬 명령에 대한 지식이 필요하기 때문에 일부 사용자에게는 활용하기 어려웠어요.
하지만 Const-me에서 배포하는 whisper.cpp 기반으로 만들어진 WhisperDesktop 버전은 이러한 문제를 모두 해결했어요. 더 이상 파이썬 명령을 이해하지 않아도 되며 복잡한 패키치 파일을 설치하지 않아도 돼요. 여러분은 한 번의 클릭만으로 사용자 친화적인 GUI 인터페이스를 실행하고 동영상 자막 파일을 생성할 수 있어요. 뿐만 아니라 엔비디아(Nvidia)와 라데온(Radeon) 그래픽카드 환경 모두에서 연산이 가능하기 때문에 이전보다 활용 범위가 더 넓어졌어요.
⚙️ 기능 및 특징
- GPGPU 처리 및 가속화 지원
- WebUI 버전 대비 적은 메모리 사용량
- 사용하기 쉬운 COM 스타일 API
- 파이썬(python), 깃(git) 설치 불필요
- 대부분의 비디오 형식과 오디오 캡처 장치를 지원
- 오디오 캡처를 위한 음성 활동 감지
- 사전 빌드 된 바이너리 사용 가능
📦 설치 및 사용법
1 단계 – 실행파일 패키지 다운로드
먼저 상단의 다운로드 버튼을 클릭해 WhisperDesktop.zip 압축 파일을 다운로드해 주세요. (만약 다양한 버전의 소프트웨어 리소스를 직접 선택하고 싶다면 개발자의 Github 페이지를 참고해 주세요)
다운로드가 완료되면 압축을 푼 다음 내용을 확인해 주세요.
2 단계 – Whisper 언어 모델 다운로드
멀티언어 학습 모델 | Training Parameters | VRAM | 자막 생성 속도 |
---|---|---|---|
tiny (다운로드) | 3900만 | 1GB 이하 | 가장 빠름 |
base (다운로드) | 7400만 | 1GB 이상 | 빠름 |
small (다운로드) | 2억 4400만 | 2GB 이상 | 평균 |
⭐ medium (다운로드) | 7억 6900만 | 5GB 이상 | 느림 |
⭐ large (다운로드) | 15억 5500만 | 10GB 이상 | 매우 느림 |
이제 위스퍼에서 사용할 언어 모델을 다운로드해야 해요. 자신의 그래픽카드 용량을 확인한 다음 적절한 버전을 설치해 주세요. medium 이하의 언어 모델은 속도가 빠르지만 작업 결과물 퀄리티가 좋지 않기 때문에 가능한 한 medium 또는 Large 모델을 권장하고 있어요.
다운로드한 ‘모델파일.bin‘은 관리하기 쉽도록 WhisperDesktop 폴더 안으로 이동시켜 주세요.
3 단계 – WhisperDesktop 실행하기
이제 마우스 왼쪽 버튼을 사용해서 WhisperDesktop을 더블 클릭해 프로그램을 실행시켜 주세요.
최초 실행 시 프로그램 언어 모델에 대한 경로를 제공하라는 메시지가 표시돼요.
이제 ‘⋯’을 클릭해 방금 전 다운로드한 ‘모델 파일.bin’을 불러와 주세요.
그런 다음 model Implementation을 GPU로 선택한 다음에 OK 버튼을 클릭해 주세요. 이제 모든 설정이 완료되었어요.
4 단계 – 자막파일 생성하기
설정을 완료했다면 다음 4가지 순서대로 선택한 뒤 Transcribe 버튼을 클릭해 자막 파일을 생성해 주세요.
- [Language]에서 비디오 파일의 언어를 선택해 주세요. 미디어 파일의 음성이 영어면 영어로, 한글이면 한글로 선택해 주세요. (업로드한 음성을 영어로 1차 번역한 뒤 출력하고 싶다면 Translate에 체크해 주세요)
- [Transcribe File]에서 ‘⋯’을 클릭해 자막을 생성할 비디오 파일을 불러와 주세요.
- [Output Format]에서 출력 자막 형식을 선택해 주세요. (자막 형식은 다양한 동영상 소프트웨어와 유튜브에 호환되는 표준 자막 형식인 SubRip subtitles를 권장) 그런 다음 Place that file to the input folder에 체크해 주세요.
- [Transcribe] 버튼을 클릭해 자막 파일을 생성해 주세요.
자막 파일은 미디어 파일이 저장된 위치와 동일한 장소에 생성돼요. 미디어 플레이어가 자막 파일을 자동으로 인식할 수 있도록 ‘자막 파일’과 ‘미디어 파일’의 이름을 동일하게 유지시켜 주세요.
📖 FAQ
Whisper가 지원하는 오디오 파일형식은 무엇인가요?
Whisper AI가 지원하는 오디오 파일 형식은 ‘mp3, mp4, mpeg, mpga, m4a, wav, webm’입니다.
Whisper AI를 라데온 그래픽 카드에서 사용할 수 있나요?
네, WhisperDesktop 무설치 버전은 엔비디아뿐만 아니라 라데온 그래픽카드 환경에서도 충분히 사용할 수 있습니다.
Whisper AI는 유료인가요?
아니요, 위스퍼 AI는 무료 오픈 소스 모델이기 때문에 누구나 무료로 사용할 수 있으며 별도의 비용을 지불하지 않고도 자신의 하드웨어에서 설치해 실행할 수 있습니다