インプレス[コンピュータ・IT]ムック Pythonで学ぶ音声認識 機械学習実践シリーズ
インプレス / 2021年05月20日 / 全351ページ
「音声認識」とは音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるまでを目的とし、手法の目的やアルゴリズムの概要を解説、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「その手法は何を目的として生み出されたのか」という経緯と「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。
目次
- 本書の前提
- 目次
- 序章
- 第1章 音声認識とは?
- 第1節 音声認識とは? どんなことに使える?
- 第2節 音声を認識するとは?─音声認識のしくみ─
- 第3節 本書の目的と構成
- 第2章 音声認識の基礎知識
- 第1節 音声認識と確率
- 第2節 音声認識の問題を数式で定義する
- 第3節 テキストの種類と発音辞書-音素・かな・文字・単語-
- 第4節 2種類の音声認識実験
- 第5節 音声認識実験の大まかな流れ
- 第3章 音声処理の基礎と特徴量抽出
- 第1節 データの準備
- 第2節 音声ファイルを読み込んでみよう
- 第3節 フーリエ変換を使って音声を周波数分解しよう
- 第4節 音声を短時間フーリエ変換してスペクトログラムを作成しよう
- 第5節 対数メルフィルタバンク特徴量
- 第6節 メル周波数ケプストラム特徴量
- 本書の前提
- 目次
- 序章
- 第1章 音声認識とは?
- 第1節 音声認識とは? どんなことに使える?
- 第2節 音声を認識するとは?─音声認識のしくみ─
- 第3節 本書の目的と構成
- 第2章 音声認識の基礎知識
- 第1節 音声認識と確率
- 第2節 音声認識の問題を数式で定義する
- 第3節 テキストの種類と発音辞書-音素・かな・文字・単語-
- 第4節 2種類の音声認識実験
- 第5節 音声認識実験の大まかな流れ
- 第3章 音声処理の基礎と特徴量抽出
- 第1節 データの準備
- 第2節 音声ファイルを読み込んでみよう
- 第3節 フーリエ変換を使って音声を周波数分解しよう
- 第4節 音声を短時間フーリエ変換してスペクトログラムを作成しよう
- 第5節 対数メルフィルタバンク特徴量
- 第6節 メル周波数ケプストラム特徴量
- 第7節 特徴量の平均と標準偏差を計算してみよう
- 第4章 音声認識の初歩-DPマッチング-
- 第1節 音声認識につきまとう、アライメント問題
- 第2節 DPマッチング
- 第3節 DPマッチングを実装してみよう
- 第5章 GMM-HMMによる音声認識
- 第1節 テンプレートから分布と尤度という考え方へ
- 第2節 正規分布と最尤推定法によるパラメータ推定
- 第3節 混合正規分布(GMM)とEMアルゴリズム
- 第4節 隠れマルコフモデル(HMM)
- 第5節 GMM-HMMを実装してみよう
- 第6章 DNN-HMMによる音声認識
- 第1節 分布からディープニューラルネットワークへ
- 第2節 ディープニューラルネットワーク
- 第3節 DNNとHMMを組み合わせたDNN-HMMハイブリッドシステム
- 第4節 DNN-HMMをPythonとPytorchで実装してみよう
- 第5節 HMMベース方式における大語彙連続音声認識
- 第7章 End-to-Endモデルによる連続音声認識
- 第1節 ハイブリッドシステムからフルニューラルネットワークモデルへ
- 第2節 リカレントニューラルネットワーク
- 第3節 Connectionist temporal classification(CTC)
- 第4節 CTCをPythonとPytorchで実装してみよう
- 第5節 Attention encoder-decoderモデル
- 第6節 AttentionモデルをPythonとPytorchで実装してみよう
- 第7節 その他のテクニックと音声認識モデル
- 第8節 参考文献
- おわりに
- 索引
- 著者プロフィール
- 奥付
※このデジタル雑誌には目次に記載されているコンテンツが含まれています。それ以外のコンテンツは、本誌のコンテンツであっても含まれていません のでご注意ください。
※電子版では、紙の雑誌と内容が一部異なる場合や、掲載されないページがある場合があります。