wikipediaで音声合成絡みのソフトリストがあったので、Linux上のオープンソースでどこまで音声合成が使えるのかちょっと調べてみた。
やりたいことは
- Linux上で実行できる
- オープンソース
- かな漢字まじり、もしくはひらがなのみ入力すれば、自由に音声を出力できる
- 言語は日本語のみを想定
- mp3に出力できる
- 最終的には、web側からの入力に対し、音声出力を行い、mp3の形でファイルに落としたい
みたいな感じ。
VistaやMacOSXでも音声合成機能はあるんだけど、英語しか対応してないんだよねぇ。なので、Webアプリから操作できるようにLinuxのシェルコマンドぐらいで扱えるものを探してみた。
ここから追って行くと、フリーで使えそうなものは3つだとわかった。
suzumeは試してないけど、MIDI上にサンプリングした音声データを持って音階として鳴らして行くという手法から、だいたい精度は想像できたので、とりあえず実用レベルには至ってないと判断。
yomiはサイト上のサンプル音声ファイルを再生してみて、ちょっと厳しいかなぁと。
残るはGalateaなんだけど、サイトはしっかりしててIPAも支援しているような正統派プロジェクトで、話すだけじゃなくてヒューマンインターフェイスとしての疑似オペレータの口パクや表情、音声認識などもセットになっているみたい。
仕事で使うなら、色々面白いことも出来そうだけど、音声合成だけをみると、お手軽という感じではないのと、やはりサンプル音声ファイル(というかデモ版のビデオ)を見る限りでは、自然な日本語とは言いがたい。
初音ミクのような、ちょっと聞きぐらいではわからないレベルを想像していただけに、やはりオープンソースでは辛い分野なのかなぁと思った。まぁ、利権や特許が絡む世界だろうしねぇ。
windowsならもうちょっとハイレベルなものがあるのだろうか…
0 件のコメント:
コメントを投稿