Realtime Zoom transcribing with Soundflower + SpeechToText API (on macOS)

Keewon Seo
3 min readFeb 10, 2021

--

회사 업무를 하면서 Zoom 을 이용한 영어 meeting 이 많다보니 상대방 말을 못 알아 듣는 경우가 종종 생기고 있습니다. 영어 공부를 해야겠지만 그대신 SpeechToText API 를 이용해보면 어떨까 하고 꾀를 부리게 되었습니다. 준비물은 다음과 같습니다. 참고로 저는 macOS 에서 Zoom을 사용하고 있습니다.

방법은 다음과 같습니다.

  1. Soundflower 를 이용하여 macOS의 오디오 출력을 입력으로 받는 가상 장치를 만든다. (Audio Midi Setup 이용)
  2. Zoom의 오디오 출력을 Soundflower + 내장 출력으로 한다.
  3. Google 의 Speech To Text API 사용 설정을 한다. (Google cloud 사용, 카드 입력, 프로젝트 생성, 사용자 인증키 다운로드 등이 필요)
  4. 구글이 제공하는 transcribe_streaming_mic.py 를 이용한다.

구글이 제공하는 예제는 시스템 기본 오디오 입력을 사용하게 되어있기 때문에 항상 Soundflower 를 이용하도록 코드를 살짝 수정해봤습니다.

% python transcribe_streaming_mic.py 
hope you had a weight loss strategy but it should be covered in you
perfect
cool
yeah that was everything from my side was there anything else that you wanted to cover

이런 식으로 Terminal 에서 실시간 받아쓰기를 할 수 있습니다. weight loss strategy 에 대해서는 얘기한 적이 없는 것 같은데…

유의할 점

  • Google API 는 유료입니다. (무료 제공량이 있기는 합니다.)
  • 받아쓰기는 완벽하지 않습니다.
  • 5분 정도 이용하면 python script 가 종료 됩니다. 코드를 더 수정하면 될 텐데 해보지 않았습니다.
  • Zoom 의 App Marketplace 에 관련 서비스가 많이 있습니다. 대부분 유료이며 저는 사용해보지 않았습니다. https://marketplace.zoom.us/apps?category=transcription

--

--

Keewon Seo

Engineering manager, Software engineer and Game developer