서브메뉴

본문

파이썬으로 배우는 음성인식 (음성인식의 기술 발전 동향부터 파이토치를 활용한 딥러닝 실습까지)
파이썬으로 배우는 음성인식 (음성인식의 기술 발전 동향부터 파이토치를 활용한 딥러닝 실습까지)
저자 : 다카시마 료이치
출판사 : 비제이퍼블릭
출판년 : 2023
ISBN : 9791165921828

책소개

음성인식의 기초부터 파이토치를 활용한 딥러닝 실습까지,
파이썬으로 배우는 음성인식 도서 출간!

음성인식이란 음성 신호로부터 발화 내용을 인식하는 기술, 즉 컴퓨터가 사람의 음성을 신호로 인식하여 처리하는 기술이다. AI 스피커와 스마트폰 음성 어시스턴트 등 음성인식 기술들은 이미 우리의 일상생활 속으로 깊이 스며들어 있다. 음성 번역 시스템의 전처리 단계, 회의록 자동 작성 시스템 등 다양한 곳에서 음성인식 기술이 사용된다. 특히나 음성인식 기술은 손을 사용하지 않고(Hands-free) 기계를 작동시킬 수 있어, 차량 내비게이션과의 연동 혹은 신체장애인의 입력 장치 등 다양한 방면에서 성장이 기대되는 기술이다.

이 책은 지금까지의 음성인식 기술의 역사와 기술 발전 동향을 이해하고, 파이썬과 파이토치를 통해 최신 음성인식 시스템을 실습한다. 음성인식의 목적이나 알고리즘의 개요를 설명하고, 소스 코드를 상세하게 분석하고, 마지막으로 소스 코드를 첨부하여 독자들이 직접 구현할 수 있도록 한다. 특히 인공지능기술이 만들어진 목적이나, 해당 기술로 목적을 달성할 수 있을지에 대해 명확히 제시한다. 이 책은 음성인식을 제대로 구현하고자 하는 개발자 및 학부생에게 꼭 필요한 필독서가 될 것이다.
[교보문고에서 제공한 정보입니다.]

출판사 서평

음성인식 머신러닝 모델을 파이썬으로 구현 및 실습하기 위한
'음성인식 기초 이론 및 단계별 실습서'

음성인식 기술은 나날이 발전해가고 있습니다. 중요한 회의나 강의 내용을 필사해야 할 경우 과거에는 녹음기를 사용했지만 최근에는 음성인식 노트 앱을 사용합니다. 또한 핸드폰에 깔려있는 애플 시리, 구글 어시스턴트, 삼성 빅스비 혹은 집에 하나씩 가지고 있는 스마트 스피커, 차량에서 사용하는 내비게이션 앱에서 지원하는 음성인식 등, 음성인식은 이미 우리의 일상에 스며들었습니다. 음성인식은 최근 들어 딥러닝 모델링을 기반으로 급격한 기술적 도약을 경험하며 인식 품질이 개선되었지만, 여전히 완벽한 음성인식에 도달하기 위해서는 더 많은 데이터와 모델이 필요합니다. 잡음이 섞인 음성, 복수의 사람이 동시에 이야기를 할 때의 음성인식 등 현실적으로 풀어야 할 문제들이 많습니다.

이 책은 과거부터 현재까지의 음성인식 기술 발전의 변천사를 다루고 있습니다. 과거의 음성인식 기법이 현재의 음성인식 기술에 미친 영향에 대해 마치 이야기를 들려주듯이 설명하고 있습니다. 또한 음성인식 기술에 많이 사용되는 확률과 신호 처리 이론을 포함한 음성인식의 각 기법에 대한 이론적 지식과 실습 코드를 제공하며, 딥러닝을 이용한 최신 음성인식 시스템을 파이썬과 파이토치를 활용하여 직접 개발해 볼 수 있도록 돕습니다.

이 책의 저자는 처음 음성인식을 접하는 독자분들에게 음성인식 기술의 이해를 넘어서 음성인식 기술의 전체적인 흐름과 특징을 이해할 수 있게끔 집필하였습니다. 향후 음성인식 기술이 어떻게 더 발전해 나갈지 관심 있으신 분과 현업에 빠르게 음성인식기술을 적용해 보고 싶으신 분, 음성 처리 및 기계 학습 전반에 관심이 있는 분, 그리고 앞으로 진지하게 음성인식 기술에 대해서 배우고 싶은 분들에게 이 책을 추천합니다.
[교보문고에서 제공한 정보입니다.]

목차정보

제 1 장 음성인식이란?
제1절 음성인식은 무엇이며, 어디에 사용되는가?
제2절 음성을 인식한다는 것은? - 음성인식 원리-
제3절 이 책의 목적과 구성

제 2 장 음성인식 기초 지식
제1절 음성인식과 확률
제2절 음성인식 문제를 수식으로 정의하기
제3절 텍스트 종류와 발음 사전 - 음소ㆍ히라가나ㆍ문자ㆍ단어 -
제4절 음성인식 실험 두 가지
제5절 음성인식 실험 프로세스

제 3 장 음성 처리 기초와 특징 추출
제1절 데이터 준비하기
제2절 음성 파일 읽어보기
제3절 푸리에 변환으로 음성을 주파수 분해하기
제4절 음성을 단시간 푸리에 변환하여 스펙트럼 생성하기
제5절 로그 Mel Filter Bank 특징
제6절 Mel 주파수 켑스트럼 특징
제7절 특징의 평균과 표준편차 계산해보기

제 4 장 음성인식 첫걸음 DP Matching
제1절 음성인식에서 떼어놓을 수 없는 정렬(얼라인먼트) 문제
제2절 DP Matching
제3절 DP Matching 구현해보기

제 5 장 GMM - HMM 기반 음성인식
제1절 템플릿이 아닌, 분포와 빈도 관점
제2절 정규분포와 최빈 추정법을 활용한 매개변수 추정
제3절 혼합 정규분포(GMM)와 EM 알고리즘
제4절 은닉 마코프 모델(HMM)
제5절 GMM - HMM 구현하기

제 6 장 DNN-HMM 기반 음성인식
제1절 ‘분포’에서 ‘Deep Neural Network’로
제2절 Deep Neural Network
제3절 DNN과 HMM을 조합한 DNN - HMM 하이브리드 시스템
제4절 DNN - HMM을 파이썬과 파이토치로 구현해보기
제5절 HMM 기반 대어휘 연속 음성인식

제 7 장 End-to-End 모델 기반 연속 음성인식
제1절 하이브리드 시스템에서 Full Neural Network Model로
제2절 순환 신경망(Recurrent Neural Network)
제3절 Connectionist temporal classification(CTC)
제4절 CTC를 파이썬과 파이토치로 구현해보기
제5절 Attention encoder-decoder 모델
제6절 Attention 모델을 파이썬과 파이토치로 구현해보기
제7절 기타 기법과 음성인식 모델
제8절 참고 문헌
[교보문고에서 제공한 정보입니다.]