Charleston 0.6は読み上げ音声に
を利用可能です。
以下にAquesTalk10とOpenJTalkの音声定義ファイルの作成、声質のカスタマイズの方法を紹介します。
音声定義ファイルは、jsonという形式のファイルで定義されています。
音声定義ファイルの置き場所(フォルダー)は、
~/Library/Application Support/Charleston/Voices
という場所になります。
このフォルダーを開くにはファインダー上で「⌘キーとシフトキーを押しながらGキーを押すと表示される小窓に上の文字列を入力して移動ボタンを押すか、Charlestonを起動して、Charlestonメニューの環境設定の一つ下のサブメニューのアプリケーションフォルダーを表示を選択するとVoicesフォルダーがファインダーの新規ウィンドウとして表示されます。
音声定義ファイルの全体は以下のようになります
{ "method": "読み上げ方式", "param": { "speed": 読み上げ速度, "volume": 読み上げ音量 } }
voice
に記載する項目
"voice":
に続く"読み上げ方式"
には、AquesTalk
またはOpenJTalk
のいずれかを記載して下さい。
Apple
とAquesTalk2
については可能な定義は全て作成されているので、追加不要です。
param
に記載する項目
"param":
に続く{ }
の中は、voice
がAquesTalk
かOpenJTalk
かで記載する内容が変わり、省略可能なものもあるので、以下に一覧を表に纏めます。
要素名 | 用途 | 必須 | 意味 | 指定可能な範囲 |
---|---|---|---|---|
voice |
共通 | ◯ | AquesTalk の場合はF1,F2,M1 のいずれかOpenJTalk の場合は.htsvoiceファイルの拡張子を除いたファイル名
|
− |
speed |
共通 | ◯ | 読み上げ速度(%) | 50~300 |
volume |
共通 | ◯ | 読み上げの音量(%) | 0~300 |
fsc |
AquesTalk | ◯ | サンプリング周波数 | 50~200 |
pitch |
AquesTalk | ◯ | 声の高さ(ピッチ) | 20~200 |
accent |
AquesTalk | ◯ | 抑揚(アクセント) | 0~200 |
lmd |
AquesTalk | ◯ | 音程 | 0~200 |
frame |
OpenJTalk | × | ||
allPass |
OpenJTalk | × | all-pass constant | 0.0~1.0 |
postfilter |
OpenJTalk | × | postfiltering coefficient | 0.0~1.0 |
halfTone |
OpenJTalk | × | additional half-tone | |
threshold |
OpenJTalk | × | voiced/unvoiced threshold | 0.0~1.0 |
spectrum |
OpenJTalk | × | weight of GV for spectrum | |
logF0 |
OpenJTalk | × | weight of GV for log F0 |
ファイル名f1.json
{ "method": "AquesTalk", "param": { "voice": "F1", "speed": 100, "volume": 80, "fsc": 100, "pitch": 100, "accent": 100, "lmd": 100 } }
ファイル名m001.json
{ "method": "OpenJTalk", "param": { "voice": "m001", "speed": 100, "volume": 100 } }
"volume"
に続いて"allPass", "postfilter", "threshold", "spectrum", "logF0"
が続いても良い
OpenJTalk
の音響モデル(htsvoice)
についてOpenJTalk
は、音響モデル(htsvoice)
と呼ばれるファイルを追加し、音声定義ファイルのvoice
にそのファイル名を指定することで声色のバリエーションを大幅に増やすことが出来ます。
以下で音響モデルファイルの追加方法と、各種音響モデルファイルがダウンロード出来るサイトを紹介します
(htsvoice)
ファイルの追加音響モデル(htsvoice)
ファイルを配置するフォルダーを開く方法は2通りあります。
Charleston
メニューの環境設定の一つ下にある、表示メニューのサブメニューアプリケーションデーターフォルダーを選び、表示された新規ファインダー窓からHTSVoice
フォルダーをダブルクリックするG
キーを押す)
開いた小さなウィンドウに~/Library/Application Support/Charleston/HTSVoice
と打ち込み、移動ボタンを押すこのフォルダーに(解凍された).htsvoiceファイルをコピーして下さい。ファイル名になんとかVer.01.htsvoice
などと.が入っている場合はそのままでも大丈夫なはずですが、なんとか.htsvoice
とリネームしておくと指定間違いが少なくて良いと思います。
先に述べた声質定義ファイルは、"method"
を"OpenJTalk"
に、"voice"
になんとか.htsvoice
の.htsvoice
を除いた部分(この例では「なんとか」)を指定して下さい。
(htsvoice)
ファイルへのリンク
追加されたOpenJTalkは.htsvoice
という形式の音響モデルファイルを追加することで新たな音声をCharlestonの読み上げバリエーションに加えることが可能です。
この.htsvoice
ファイルは比較的汎用性が高いので、個人で音響モデルファイルを作成・公開しておられる方がそれなりにおられます。
以下に比較的容易に見つかった音響モデルファイルへのリンク・リンク集を載せておきます。ご自身でGoogle等でhtsvoice ダウンロード
等のキーワードで検索すると他にも音響モデルが見つかるかも知れません
伊藤・能勢研究室がGitHubで音響モデルを公開されています。
Creative Commons Attribution 4.0 licenseというライセンス形式なので少しご注意下さい。
こちらは個人のサイトですが、ダウンロード出来る音響モデルの数が圧巻です。
更に自分の音声を送ると、それを元に音響モデルを作っても下さるようです。
こちらはMMDAgent用の音響モデルファイルが配布されています。
初音ミクっぽい音声らしいですが、ファイル形式が旧形式のため、homebrew等を使って現在のhtsvoice
形式に変換する必要があります。