「ニューラルネットワークに基づく音声波形生成モデル」デモサイト

[English version] [個人HPトップページ]
最終更新日 : 2022年6月11日 (JETSサンプル追加)
今後も順次サンプルやモデルを追加予定(サンプリング周波数やLJSpeechのテストセットも合わせます)

解説記事

岡本拓磨,"ニューラルネットワークに基づく音声波形生成モデル",日本音響学会誌,vol. 78, no. 6, pp. 328–337, June 2022.

原音

英語
CMU ARCTIC slt (24 kHz) CMU ARCTIC bdl (24 kHz) LJSpeech 001-0001 (22.05 kHz) LJSpeech 050-0029 (22.05 kHz)
HiFi TTS 92_clean (22.05 kHz) HiFi TTS 92_clean (44.1 kHz) HiFi TTS 9017_clean (22.05 kHz) HiFi TTS 9017_clean (44.1 kHz)
日本語
JSUT (24 kHz) JSUT (44.1 kHz) jvs004 (24 kHz) jvs001 (24 kHz)

条件なしWaveNet (9 bit,ノイズシェーピング)

slt bdl

WaveNet vocoder (9 bit,メルスペクトログラム,ノイズシェーピング)

slt bdl jsut

Multi-speaker WaveNet vocoder (9 bit,jvs005-jvs100で学習,ノイズシェーピング)

jvs004 (未知話者) jvs001 (未知話者) slt (クロスリンガル条件) bdl (クロスリンガル条件)

LPCNet

slt bdl JSUT

WaveGlow

slt (1時間未満では厳しい) bdl (同様) LJSpeech JSUT

Parallel WaveGAN

slt bdl LJSpeech JSUT

HiFi-GAN

LJSpeech
HiFi TTS 92_clean (22.05 kHz) HiFi TTS 92_clean (44.1 kHz) HiFi TTS 9017_clean (22.05 kHz) HiFi TTS 9017_clean (44.1 kHz)
JSUT (22.05 kHz) JSUT (44.1 kHz)

DiffWave (10サブモデリング,反復25回[フィボナッチ])

slt bdl LJSpeech

Multi-speaker DiffWave (VCTKコーパスで学習,10サブモデリング,反復25回[フィボナッチ])

slt (未知話者) bdl (未知話者) LJSpeech (未知話者)

Entire end-to-end neural text-to-speech: VITS

slt (1時間未満でもそこそこ動く!!) bdl (同様) LJSpeech
HiFi TTS 92_clean (22.05 kHz) HiFi TTS 92_clean (44.1 kHz) HiFi TTS 9017_clean (22.05 kHz) HiFi TTS 9017_clean (44.1 kHz)
JSUT (22.05 kHz) JSUT (44.1 kHz)

Pipeline neural text-to-speech: Conformer-FastSpeech 2 + HiFi-GAN (Joint fine-tuning適用済)

LJSpeech
HiFi TTS 92_clean (22.05 kHz) HiFi TTS 92_clean (44.1 kHz) HiFi TTS 9017_clean (22.05 kHz) HiFi TTS 9017_clean (44.1 kHz)
JSUT (22.05 kHz) JSUT (44.1 kHz)

Entire end to end text-to-speech: JETS (FastSpeech 2 + HiFi-GAN) [学習中]

(新し過ぎるため)解説記事では引用しておりません
slt (trainable with few data!!)(1時間未満でもそこそこ動く!!) bdl (同様) LJSpeech
HiFi TTS 92_clean (22.05 kHz) HiFi TTS 92_clean (44.1 kHz) HiFi TTS 9017_clean (22.05 kHz) HiFi TTS 9017_clean (44.1 kHz)
JSUT (22.05 kHz) JSUT (44.1 kHz)

Pipeline neural text-to-speech: Conformer-FastSpeech 2 + HiFi-GAN (Joint fine-tuning適用済)

LJSpeech
HiFi TTS 92_clean (22.05 kHz) HiFi TTS 92_clean (44.1 kHz) HiFi TTS 9017_clean (22.05 kHz) HiFi TTS 9017_clean (44.1 kHz)
JSUT (22.05 kHz) JSUT (44.1 kHz)

Entire end to end text-to-speech: JETS (FastSpeech 2 + HiFi-GAN)

(新し過ぎるため)解説記事では引用しておりません
slt (1時間未満でも動く!!) bdl (同様) LJSpeech
JSUT (24 kHz) JSUT (48 kHz, フル帯域でも動く)

更新履歴

2022年6月11日:JETSサンプル追加
2022年5月27日:デモ音声追加

謝辞

LPCNet(全て)およびParallel WaveGAN(JSUTのみ)の合成音声は神戸大学松原圭亮氏(2022年3月修了)のNICTにおける研修成果によるものである.