- 나의 독서
미리내
- 작성일
- 2023.2.5
파이썬으로 배우는 음성인식
- 글쓴이
- 다카시마 료이치 저
비제이퍼블릭(BJ퍼블릭)
몇 년 전 구글 개발자 컨퍼런스의 한 세션에서 재미있는 시연이 있었습니다. 전화를 걸어서 예약하는 평범한 시나리오였지만 전화를 건 것은 사람이 아니라 AI 였습니다. 서로 대화를 주고 받았는데 너무나 자연스러워서 전화를 받은 사람도 자신이 사람이 아닌 AI 와 대화하고 있다는 것을 몰랐습니다. 구글, 애플, 아마존 등 거대 IT 기업에서는 앞다투어 음성 스피커를 내놓고 있는데 궁금해서 초반에 사서 쓰면서 오늘 날씨를 물어보거나 물을 끓일때 알람을 설정하는 등 재미있게 썼습니다. 이제는 번역기 앱에서도 일일이 글로 적지 않아도 말로 하면 번역을 한 후 다른 언어로 읽어주네요.
최근에는 ChatGPT 가 등장하면서 다시 AI 에 대한 관심이 크게 높아졌습니다. 정말 사람과 대화하는것 같아서 많은 사람들을 놀라게 하였는데 지금은 입력을 해야하지만 언젠가는 말로 해도 알아듣겠죠? IT 와 관련된 일을 하면서 음성 인식에 관심이 있었는데 이번에 '파이썬으로 배우는 음성인식' 이 새로 나오면서 궁금한게 많아서 책을 읽어보았습니다.
컴퓨터가 우리가 하는 말을 알아듣는 것을 보면 신기한데 많은 데이터를 이용해 학습 과정을 거쳐 거대한 언어 모델을 만들 수 있기 때문이네요. 컴퓨터가 텍스트를 이해할 수 있다면 음성을 텍스트로 바꾸는 것만으로도 컴퓨터와 말로 소통할 수 있을 것입니다. 언어 모델에서는 텍스트의 단어를 숫자로 치환해서 처리하는 것처럼 사람의 음성도 숫자로 된 주파수로 바꿀 수 있습니다. 성별이나 연령에 따라 사람의 목소리가 다르지만 발음의 파형은 비슷하게 그려지는데 음성은 푸리에 변환 과정을 통해 수학의 영역으로 바뀔 수 있네요. 앞부분에서는 수학적인 배경이 필요하지만 가능한 쉽게 설명하고 있어서 원리를 이해할 수 있었습니다.
음성 데이터를 준비해서 하나하나 읽어들이고 주파수를 추출하는 과정은 음성 인식의 기초이기 때문에 하나씩 직접 해보지 않으면 나중에 막상 프로젝트를 해볼때 쉽지 않을 것입니다. 책에서는 각 단계마다 파이썬 코드가 주석과 함께 나와 있어서 한줄씩 따라가보면서 할 수 있네요. 이 책은 번역서인데 원서는 일본어여서 음성 인식을 개발하는 과정에서는 일본어가 예제로 나옵니다. 조금 아쉽기는 하지만 그래도 음성 인식의 기본 원리는 동일해서 책에서 언급하고 있는 예제들을 따라가면서 공부하는데 문제는 없었습니다.
요즘은 AI 를 학습하는데 딥러닝이 널리 활용되고 있으며 딥러닝에서는 CNN, RNN, LSTM 등의 개념이 나옵니다. 원래 데이터가 텍스트인지 음성인지 관계없이 모든 데이터는 숫자로 바꿔서 처리되므로 텍스트와 동일하게 음성 인식에서도 이러한 개념이 그대로 사용됩니다. 책 마지막에서는 음성 인식의 처음부터 끝까지를 설명하면서 사람이 말을 하는 단계에서부터 컴퓨터가 주파수를 분석해 어떤 글자인지 확률적으로 계산하고 이를 보완하는 CTC, Attention 등을 이용해 최종적으로 인식한 텍스트 결과를 보여주는 과정까지 자세히 나와 있어서 정리하는데 좋았습니다.
음성 인식에 관심이 있었지만 어떻게 공부하는게 좋을지 잘 몰랐는데 이번에 반갑게 입문자를 위한 책이 나왔네요. 특히 번역자 역시 우리나라 대표 IT 기업 중 한 곳에서 관련된 일을 하고 있고 어릴때 일본에서 살았어서 기술적인 부분이 충실하고 매끄럽게 번역이 된 것 같아요. 공부를 시작하는 입장에서 많은 도움이 되었습니다.
* YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.
- 좋아요
- 6
- 댓글
- 0
- 작성일
- 2023.04.26
댓글 0
댓글이 없습니다.
첫 번째 댓글을 남겨보세요.