インプレス[コンピュータ・IT]ムック Pythonで学ぶ音声合成 機械学習実践シリーズ
インプレス / 2021年08月12日 / 全351ページ
「音声合成」とは、人間の音声を人工的に作り出す音声情報処理の一分野です。深層学習の発展に従い、画像認識・音声認識などの分野と同様に、音声合成においてもパラダイムシフトが起きています。本書では従来の統計的音声合成システムの基礎を解説した上で、深層学習技術による近年の音声合成の発展について詳説しています。また実際に公開されているデータセットを用いて、深層学習を用いた音声合成システムの実装も行っています。本書は『Pythonで学ぶ音源分離』『同音声認識』に続く、中級者以上向けの「機械学習実践シリーズ」です。
目次
- 本書の前提
- 目次
- 序章
- 第1章 音声合成とは?
- 第1節 音声・言語とは?
- 第2節 広義の音声合成
- 第3節 テキスト音声合成
- COLUMN 音声研究者をクビにすべき?
- 第2章 音声の情報と物理
- 第1節 音声の情報的側面:音声の内包する情報
- COLUMN イントネーションとアクセントは違う?
- COLUMN 朗読音声に現れにくい要素
- 第2節 音声の物理的側面:音声生成の物理モデル
- 第3節 本章のまとめ
- COLUMN 音声分析合成システムWORLDの由来
- 第3章 統計的音声合成
- 第1節 統計モデルに基づく音声合成
- 第2節 統計的パラメトリック音声合成
- 第3節 一貫学習に基づく音声合成
- 第4節 本章のまとめ
- 本書の前提
- 目次
- 序章
- 第1章 音声合成とは?
- 第1節 音声・言語とは?
- 第2節 広義の音声合成
- 第3節 テキスト音声合成
- COLUMN 音声研究者をクビにすべき?
- 第2章 音声の情報と物理
- 第1節 音声の情報的側面:音声の内包する情報
- COLUMN イントネーションとアクセントは違う?
- COLUMN 朗読音声に現れにくい要素
- 第2節 音声の物理的側面:音声生成の物理モデル
- 第3節 本章のまとめ
- COLUMN 音声分析合成システムWORLDの由来
- 第3章 統計的音声合成
- 第1節 統計モデルに基づく音声合成
- 第2節 統計的パラメトリック音声合成
- 第3節 一貫学習に基づく音声合成
- 第4節 本章のまとめ
- COLUMN 音声合成モデルの学習には大規模データが必要?
- 第4章 Pythonによる音声信号処理
- 第1節 Python環境の準備
- 第2節 数値計算のためのPythonライブラリ
- 第3節 音声ファイルの読み込み
- 第4節 音声のフーリエ変換
- 第5節 音声の短時間フーリエ変換とその逆変換
- 第6節 メルスペクトログラム
- 第7節 Griffin-Limのアルゴリズムに基づく位相復元
- COLUMN 音声合成のためのライブラリnnmnkwiiを作った経緯
- 第5章 深層学習に基づく統計的パラメトリック音声合成
- 第1節 はじめに
- 第2節 DNN音声合成に必要なデータ
- 第3節 フルコンテキストラベルとは?
- 第4節 言語特徴量の抽出
- 第5節 音響特徴量の抽出
- 第6節 音声波形の生成
- 第6章 日本語DNN音声合成システムの実装
- 第1節 本章の日本語音声合成システムの実装
- 第2節 プログラム実装の前準備
- 第3節 継続長モデルのための前処理
- 第4節 音響モデルのための前処理
- 第5節 特徴量の正規化
- 第6節 ニューラルネットワークの実装
- 第7節 学習スクリプトの実装
- 第8節 継続長モデルの学習
- 第9節 音響モデルの学習
- 第10節 学習済みモデルを用いてテキストから音声を合成
- COLUMN JSUTコーパスを作った経緯と反省
- 第7章 WaveNet:深層学習に基づく音声波形の生成モデル
- 第1節 WaveNetとは?
- 第2節 自己回帰に基づく音声波形の生成モデル
- 第3節 WaveNetにおける音声波形の扱い
- 第4節 因果的な膨張畳み込み
- COLUMN 再帰型ニューラルネットワークではだめなの?
- 第5節 ゲート付き活性化関数を用いた1次元畳み込み
- 第6節 条件付け特徴量のアップサンプリング
- 第7節 WaveNetの実装
- COLUMN WaveNetが生まれるまでの経緯
- 第8章 日本語WaveNet音声合成システムの実装
- 第1節 本章の日本語音声合成システムの実装
- 第2節 データの前処理
- 第3節 継続長モデルの学習
- 第4節 対数F0予測モデルの学習
- 第5節 WaveNetの学習スクリプトの実装
- 第6節 WaveNetの学習
- 第7節 学習済みモデルを用いてテキストから音声を合成
- 第9章 Tacotron 2:一貫学習を狙った音声合成
- 第1節 Tacotronとは?
- 第2節 注意機構付きsequence-to-sequenceモデル
- 第3節 エンコーダ
- 第4節 注意機構
- 第5節 デコーダ
- 第6節 Post-Net
- 第7節 Tacotron 2の実装
- COLUMN 音声合成とペルソナ
- 第10章 日本語Tacotronに基づく音声合成システムの実装
- 第1節 本章の日本語音声合成システムの実装
- 第2節 Tacotron 2を日本語に適用するための変更
- 第3節 データの前処理
- 第4節 Tacotronの学習スクリプトの実装
- 第5節 Tacotronの学習
- 第6節 WaveNetボコーダ学習
- 第7節 学習済みモデルを用いてテキストから音声を合成
- COLUMN Tacotronとその発展
- 第11章 音声合成システムを新たに作るときに
- 第1節 新しい音声コーパスを作るとき
- 第2節 より高度な音声合成手法・タスク
- 参考文献
- 索引
- 著者プロフィール
- 奥付
※このデジタル雑誌には目次に記載されているコンテンツが含まれています。それ以外のコンテンツは、本誌のコンテンツであっても含まれていません のでご注意ください。
※電子版では、紙の雑誌と内容が一部異なる場合や、掲載されないページがある場合があります。