대표사진
리딩차이
  1. 과학-경영-IT

이미지

도서명 표기
파이썬으로 배우는 음성인식
글쓴이
다카시마 료이치 저
비제이퍼블릭(BJ퍼블릭)
평균
별점9.6 (5)
리딩차이

파이썬은 모르더라도 음성인식은 우리의 일상에 너무 깊숙이 들어와서 잘 알 것 같다. 원리로서의 음성인식이 아니라 음성인식을 활용한 다양한 기술을 잘 활용해야 한다고 해야 할까? 예를 들면 사람이 기계에게 말을 걸거나 기계가 사람의 말을 듣고 문자로 변화해 주는 것(음성인식 노트 앱 포함) 등 모두 음성인식 기술을 사용한 것이다. 



 



책 앞표지를 보니 음성인식의 기술 발전 동향을 알려줄 뿐만 아니라 딥러닝 실습까지 하는 실천서이다. 음성인식의 기초부터 최신 기법까지 차근차근 배우기에 적합한 책이다. 



뒤표지에는 이 책의 구성이 일목요연하게 정리되어 있고, '음성인식의 핵심 원리를 파헤치고 실습까지 한 권으로 완성'할 수 있다고 강조하였다.



 



저자는 다카시마 료이치이다. 2013년 고베대학 대학원을 나왔고 시스템 정보학 연구과 박사 후기 과정을 수료한 공학박사이다. 



옮긴이 정권우는 현재 네이버 파파고 팀에서 딥러닝을 통해 더 나은 번역기를 개발하고 있다. 옮긴이의 말에 의하면 "딥러닝을 이용한 최신 음성인식 시스템을 직접 개발해 보는 것이 이 책의 목표"이다.



서문과 목차부터 살펴보고 차근차근 배워보도록 하자.



 




이 책의 목적은 간단하다. 독자가 음성인식 기술의 태성부터 현재까지의 기술 발전의 흐름을 배우고 딥러닝 기반의 최첨단 음성인식 시스템을 직접 구현하도록 돕는 것이다...실습 과제를 하나씩 재현해 보면서 음성인식 기술의 태서부터 점차 최신 기법으로 탈바꿈해나가는 과정을 한 편의 이야기를 읽는 듯한 느낌으로 고스란히 전달하고자 한다._서문 중에서




 



저자는 음성인식과 관련된 기초 지식을 쉬운 예로 차근차근 설명하였고, 3장부터는 직접 파이썬으로 소스 코드와 더불어 실습해 보면서 그 과정을 설명하였다. 음성 특징값 추출 방법에 대해 설명하고, 이를 이용해 음성 유사도를 측정하고 음성인식을 실행하는 부분을 설명하였다. 



음성인식에 활용되는 다양한 기법과 모델을 시간 흐름의 순으로 정리하며 그 원리와 장단점을 하나씩 짚어가면서 다음 순서로 넘어가는 방식을 취하여 독자가 이해하기 쉽다. 



이 책을 음성인식 기술의 전반적인 흐름과 특징을 이해하고, 음성인식 기술 적용에 관심 있는 독자들에게 추천한다. 





1장에서는 음성인식은 무엇이며, 어디에 사용되는지, 음성인식의 원리는 어떤 것인지에 대해 설명하였다. 



음원 분리, 음원 음식, 자연어 처리 등 AI 스피커의 내부 처리 과정을 이해할 수 있었다. 소리 인식은 '지각 단계'와 '인식 단계'로 구분됨을 알 수 있고, 기계가 수행하는 음성인식 처리 과정, 음식인식 모델 내부 처리 과정 등을 이해할 수 있다. 최근 들어 음성인식의 정확도가 획기적으로 향상된 것은 딥러닝 모델로 전환되면서부터였고, 최근에는 End-to-End 모델이 음성 인식 최신 기법으로써 주목받고 있음을 알 수 있었다.





2장에서는 음성인식에 대해 알아야 할 기초 지식을 설명하였다. 



'음성인식과 확률'을 설명하고, '음성인식 문제를 수식으로 정의'하였다. 텍스트 종류와 발음 사전에 대해 설명하였고, 음성인식 실험 두 가지를 소개하였다. 쉬운 예로 확률, 확률의 연쇄 법칙, 확률의 주변화 등에 설명하였다. 그리고 고립 단어를 어떻게 인식하고 연속 음성을 어떻게 인식하는지, 음성인식 실험 프로세스를 설명하였다.





3장에서는 파이썬 소스 코드와 함께 설명하였다.



데이터를 준비하고, 음성 파일을 읽어보고, 푸리에 변환으로 음성을 주파수 분해하고, 음성을 단시간 푸리에 변화하여 스펙트럼을 생성하는 방법 등을 설명하였다. 이외 로그 Mel Fiter Bank의 특징, Mel 주파수 켑스트럼 특징을 설명하였고, 이 특징의 평균과 표준편차를 계산해 보게 하였다.





4장에서는 음성인식의 기본인 DP Matching에 대해 설명하였다. 초창기 음성인식 방법론, 발화 속도 차이에 효과적으로 대응하는 방법론으로 2020년대 현대 음성인식에는 사용하지 않는다.



음성인식에서 떼어놓을 수 없는 정렬(얼라인먼트) 문제를 언급하며, 얼라인먼트를 추정하면서 거리를 계산하는 기법 DP Matching에 대해 설명하고 구현해 보았다. 동일한 발화라도 길이와 속도에 따라 변동하므로, DP Matching을 이용한 인식 기법을 사용한 것이다.





5장에서는 혼합 정규 분포와 은닉 마코프 모델 기반 음향 모델을 설명하였다. 1980~2010년까지 음성인식을 지탱해온 기술이다.



DP Matching을 이용한 인식 기법의 실제 음성인식 서비스에 적용할 때 2가지 큰 문제로 템플릿 방식을 대신할 분포와 빈도의 관점을 내놓았다. 



정규분포와 최빈 추정법을 활용한 매개변수를 추정하는 법에 대해 설명하였다. 다만 정규분포가 알맞은 분포이지만, 근사 오차는 피할 수 없으므로 이 근사 오차를 줄이기 위해 분포보다 더 정밀한 기법을 설명하였다. 즉 혼합 정규분포와 EM 알고리즘에 대한 설명이다.



이외 은닉 마코프 모델(HMM)에 대해 소개하였고 얼라인먼트를 자동으로 설명하는 GMM-HMM과 비터비 알고리즘 조합이 자주 사용된다고 하며 실제 구현하여 실험을 수행하는 과정을 보여주었다.





6장에서는 딥러닝을 기반으로 한 음향 모델 중에서 실제 상용화된 제품에 가장 흔하게 적용되는 기법이라고 했다. 



GMM 대신 DNN를 사용해 성능을 향상시킨 것을 보여주었다. 이런 방식 때문에 음성인식 서비스가 널리 보급되기 시작했다. 



DNN이 등장하게 된 계기, 기본개념, 학습 방법, 학습에 활용되는 기술(Optimizer, DNN 매개변수 초기화) 등에 대해 설명하였다. 나아가 DNN과 HMM을 조합한 DNN-HMM 하이브리드 시스템을 소개하고 파이썬과 파이토치로 구현해 볼 수 있도록 하였다.





7장에서는 이 책의 핵심 주제인 End-to-End 모델에 대해 설명하였다. 



기존 음성인식 모델을 단 하나의 DNN으로 모델링 한 것이 바로 End-to-End 모델인데, 구현도 쉬워서 향후 발전 가능성 매우 높다고 하였다. 직접 파이썬과 파이토치로 구현해 보고 활용해 보면 좋을 것 같다.





YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.



https://blog.naver.com/reading-star100/223009625284


좋아요
댓글
0
작성일
2023.04.26

댓글 0

빈 데이터 이미지

댓글이 없습니다.

첫 번째 댓글을 남겨보세요.

리딩차이님의 최신글

  1. 작성일
    2025.5.9

    좋아요
    댓글
    0
    작성일
    2025.5.9
    첨부된 사진
    첨부된 사진
    20
  2. 작성일
    2025.5.3

    좋아요
    댓글
    0
    작성일
    2025.5.3
    첨부된 사진
    첨부된 사진
    20
  3. 작성일
    2025.4.30

    좋아요
    댓글
    0
    작성일
    2025.4.30
    첨부된 사진
    첨부된 사진
    20

사락 인기글

  1. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.7
    좋아요
    댓글
    103
    작성일
    2025.5.7
    첨부된 사진
    첨부된 사진
    20
  2. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.8
    좋아요
    댓글
    61
    작성일
    2025.5.8
    첨부된 사진
    첨부된 사진
    20
  3. 별명
    리뷰어클럽공식계정
    작성일
    2025.5.7
    좋아요
    댓글
    118
    작성일
    2025.5.7
    첨부된 사진
    첨부된 사진
    20
예스이십사 ㈜
사업자 정보