top of page
テキスト音声合成ソフトウェア開発キット
概要

「怒った声」、「悲しい声」といった感情豊かな音声を合成することができる音声合成エンジンを、お客様のアプリケーションに組み込んでご利用いただけます。

特徴

多様な発話スタイルを実現

 

従来の波形接続型音声合成手法ではなく、最新の統計的パラメトリック音声合成手法を用いているため、多様な発話スタイルの自然な音声を合成することができます。「怒った声」や「悲しい声」といった様々なスタイルの音声を合成できる「感情音声合成技術」や、それらのスタイルを混ぜ合わせることができる「発話スタイル補間技術」を簡単にご利用いただくためのAPIをご提供します。

未知単語への対応

テキストに出現する固有名詞等の未知単語は、ユーザ辞書に登録することで自然に発話することができるようになります。また、部分的に読み方を変更したい場合には、テキスト内の未知単語部分に簡単なタグを記入し、タグの中で読み方を指定することも可能です。

高速・軽量なシステム

高速に動作するため、テキストを入力してから音声が合成されるまでの遅延がほとんどなく、並列に動かすことで、複数の異なるテキストから同時に音声を合成することも可能です。スマートフォンや組み込み向けプロセッサでも動作確認しており、高性能なコンピュータでなくてもご利用いただけます。

また、統計モデルに基づく音声合成手法であるため、データサイズが非常に小さく、ハードディスク容量を気にせずご利用いただけます。メモリ使用量も小さいため、常時起動させておいても負担が小さいという特徴もあります。

容易なアプリケーション開発

アプリケーションの効率的な開発のため、テキストを入力して音声を出力するシンプルでわかりやすい APIをご提供します。

また、文単位で声の高さ、大きさ、速さ、声年齢(子供っぽい声から大人っぽい声まで)を調整するAPIや、音素単位で音素長、高さ、大きさを細かく調整するためのAPIもご用意しています。

多様な出力形式

パソコンやスマートフォンのスピーカーで合成音声を再生できるだけでなく、メモリ上での合成音声データの受け渡しやファイルへの保存などに対応しています。

多言語対応

日本語、英語、中国語(簡体字)に対応しています。その他の言語に関してもご相談ください。

柔軟なカスタマイズ性

基本的にはC++言語用の静的ライブラリの形で音声合成エンジンをご提供しますが、その他の開発言語への対応もご相談ください。また、Windows以外のOSでもご利用いただけます。

実装例

テクノスピーチの音声合成モジュールを組み込んだアプリケーションの例です。スライドバーを動かすことで、「怒った声」や「悲しい声」といった感情豊かな音声を合成することが可能です。また、それらの感情を任意の比率で混ぜ合わせて複雑な感情を表現することもできます。

Windows 向け
テキスト音声合成 CeVIO Creative Studio
Windows 向け
テキスト音声合成 Windows サンプルアプリ
Android 向け
テキスト音声合成 Android サンプルアプリ
活用例

パソコン用ソフトウェア

音声合成モジュールをパソコン用ソフトウェアに組み込んでご利用いただけます。ゲームソフトのナレーション等にご活用ください。また、合成音声を音素単位で細かく調整するためのAPIもご用意していますので、音声コンテンツ作成を目的としたソフトウェアにも適しています。

スマートフォン用アプリケーション

音声合成モジュールはOS依存性が低く、高速・軽量であるため、iPhoneやAndroidスマートフォンのアプリケーションに組み込むことが可能です。

サーバサイドアプリケーション

多数のエンドユーザから頻繁に合成処理が呼ばれるようなサーバサイドアプリケーションに音声合成モジュールを組み込むことが可能です。音声合成モジュールはLinux OS上でも動作し、マルチスレッドで同時に複数の合成処理が行われるような状況にも対応しています。

​組み込み向けソフトウェア

音声合成エンジンは高速・軽量であるため、音声対話ロボットやカーナビ等の組み込み向けソフトウェアに音声合成機能を搭載することが可能です。

​構成

テキストを基に音声を合成する音声合成モジュールを、通常は静的ライブラリの形でご提供します。

お客様のアプリケーションにテキスト音声合成機能を簡単に組み込むことができます。

<内容物一覧>

  • ヘッダファイル

  • テキスト音声合成エンジンの静的ライブラリ

  • テキスト音声合成用ボイスのサンプル

  • テキスト音声合成用の発音辞書

  • マニュアル一式

  • ​サンプルアプリケーションのソースコード

スペック

一般的なパソコンで利用可能なセッティングの一例です。スマートフォン向けのセッティングなどもご相談ください。

入力方式
引数渡し、テキストファイルからの読み込みのいずれか
入力形式
漢字かな混じりテキスト
出力形式
48kHz 16bit Linear PCM
出力方式
パソコンのスピーカー出力、コールバックの引数渡し、音声ファイル出力のいずれか
必要データサイズ
音声合成用ボイス約1~3MB、発音辞書約70MB(日本語)
bottom of page