
⚡️ Whisper AI
미국의 비영리 인공지능 연구소 Open AI에서 개발한 「Whisper AI」는 사용자가 말하는 문장을 텍스트로 변환할 수 있는 최첨단 자동 음성 인식(Automatic Speech Recognition, ASR) 시스템입니다. 위스퍼 AI를 사용하면 오디오나 동영상 파일의 음성자막 파일들을 손쉽게 생성할 수 있습니다. Whisper의 독특한 기능 중 하나는 다양한 나라의 다국어 음성을 정확하게 처리할 수 있다는 것입니다. 또한 Whisper에는 음성 단어를 자동으로 감지할 수 있는 언어 식별 기능이 포함되어 있어 ChatGPT와 같이 여러 언어를 인식하고 응답해야 하는 챗봇등을 구축할 때 유용합니다.
⚙️ 기능 및 특징
- 한국어, 영어, 일본어, 중국어, 아랍어, 스페인어, 러시아어를 포함한 약 10개 언어를 지원합니다.
- 광범위한 딥러닝 학습을 통해 다양한 음성을 정확하게 구별하고 억양이나 전문 용어를 이해할 수 있습니다.
- 오픈소스 모델로 누구나 코드를 자유롭게 수정할 및 액세스할 수 있습니다.
- M4A, MP3, MP4, MPEG, MPGA, WAV 및 WEBM을 포함한 다양한 파일 형식을 허용합니다
- Mel spectrogram 기술을 사용해 음성 이외의 배경 소리나 잡음을 제거할 수 있습니다.
- 실시간 번역기능을 활용해 팟캐스트, 화상회의, 인터뷰 같은 상황에서 의사소통을 편리하게 합니다.
- 실시간 캡션 또는 음성 콘텐츠의 전사를 통해 청각 장애가 있는 사람들이 더 쉽게 접근할 수 있도록 하였습니다.
📦 설치방법

“WHISPER AI COLAB INSTALL”을 클릭해 위스퍼AI 구글코랩(Google Colab) 설치 화면으로 이동해 주세요.

우측 상단에 “로그인” 버튼을 클릭한 뒤 구글 계정을 사용해 로그인해 주세요.

[파일 – Drive에 사본 저장]을 클릭해 사본 파일을 생성해 주세요.

“📁파일 아이콘”을 클릭한 다음 “♻️구글드라이브 연동 버튼”을 클릭해 주세요.

왼쪽 상단에 있는 [구글 드라이브 로고 – 마우스 우 클릭 – 새 탭에서 링크 열기] 순서로 클릭해 주세요.

구글 드라이브 창이 열리면 [내 드라이브 – 새 폴더]를 클릭해 새로운 폴더를 생성해 주세요.

새 폴더의 제목을 “Temp”로 지은 다음 “만들기” 버튼을 클릭해 주세요.

생성된 “Temp 폴더”를 더블 클릭해 들어가 주세요.

여기에 음성을 추출할 파일을 업로드 해주세요.

[내 드라이브 – Colab Notebooks]로 들어가 “Whisper-stable-ts-s1.ipynb”의 사본을 더블 클릭해 구글 코랩으로 접속해 주세요. (다음부터 해당 경로로 들어가 설치된 Whisper AI를 실행시킬 수 있어요)

[런타임 – 모두 실행] 버튼을 클릭해 코드를 실행시켜주세요.

중간에 Google Drive 연결 알림이 나타나면 “Google Drive에 연결” 버튼을 클릭해 주세요.


자신의 구글 계정을 클릭한 다음 “허용” 버튼을 클릭해 Google Drive 앱을 신뢰할 수 있는 앱으로 설정해 주세요.

코드 하단에 현재 진행중인 작업 현황을 확인할 수 있어요. 100%가 되면 변환된 자막 파일을 다운로드할 수 있어요.

변환된 파일은 [내 PC – 다운로드] 경로에서 “자막파일.SRT”를 확인할 수 있어요.

자막 파일에 마우스를 올린 다음 [마우스 우 클릭 – 팟플레이어에서 재생하기] 버튼을 클릭해 실행시켜 주세요. (이 예제에서는 다음 카카오에서 제공하는 팟플레이어를 사용했습니다)
![]() | ![]() |
동영상 플레이어가 없다면 [마우스 우 클릭 – 연결 프로그램 – 메모장] 버튼을 클릭해 추출된 자막 파일을 확인할 수 있어요. 해당 자막을 “파파고, DeepL, 구글 번역기” 등을 사용해 원하는 언어로 직접 번역해 주세요.

카카오팟플레이어가 실행되면 [마우스 우클릭 – 자막 – 실시간 자막 번역]으로 들어가 “항상 사용” 기능을 활성화 시켜 주세요. 그런 팟플레이어에서 지원하는 “카카오번역, Bing번역, 구글번역(추천), 네이버 파파고 번역(추천)” 중에서 사용하고 싶은 번역기를 클릭하면 실시간으로 번역된 자막을 확인할 수 있어요.
💬 FAQ
위스퍼 AI는 어떤 용도로 사용되나요?
Whisper AI는 음성 단어를 텍스트로 변환할 수 있는 자동 음성 인식(ASR) 엔진입니다. 음성-텍스트 변환, 언어 식별, 실시간 번역 등 다양한 애플리케이션에 사용할 수 있습니다.
Whisper OpenAI는 무료인가요?
Whisper는 오픈 소스 모델이며 누구나 자유롭게 사용 및 수정할 수 있습니다. 하지만 더 빠른 처리를 위해서는 전용 GPU 지원이 필요합니다.
Whisper는 다른 AI와 어떻게 다른가요?
Whisper는 다국어 음성을 처리하는 능력과 언어 식별 기능에서 독보적입니다. 위스퍼는 OpenAI의 GPT-3 언어 모델에 사용되는 Transformer 아키텍처를 기반으로 구축되었습니다.
위스퍼 API란 무엇인가요?
Whisper API는 개발자가 자신의 애플리케이션에 Whisper를 통합할 수 있도록 해주는 프로그래밍 인터페이스입니다. API를 통해 음성-텍스트 변환, 언어 식별 및 음성 번역을 비롯한 Whisper의 모든 기능에 대한 엑세스를 제공 받을 수 있습니다.
언어를 일본어로 고정하고 싶습니다.
Whisper 코랩 “음성 분석 및 자막 생성 & 다운로드” 코드 아래 25번째줄 코드를 result = model.transcribe(audio, language=”ja”)로 변경하면 일본어로 결과가 고정됩니다. 다른 언어도 마찬가지로 국가 코드를 변경해서 언어를 고정할 수 있습니다. 국가코드는 아래와 같습니다. ‘af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,hi,hr,ht,hu,hy,id,is,it,iw,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,zh’