歌うボイスロイド(VOICEROID)と平均律

最近見つけた動画に、テキスト読み上げソフトであるボイスロイド(VOICEROID)を用いてボーカルトラックを作成している「歌うボイスロイド」という物を見つけました。
こういう方向音痴な努力、嫌いじゃないし大好きです。

ということで「歌うボイスロイド」というものに興味を抱いたので、これについて調べ、「歌うボイスロイド」の制作法の紹介とその補足をしてみました。

ボイスロイド(VOICEROID)とは

ボイスロイド(VOICEROID)とは株式会社AHSが販売するテキスト読み上げソフトです。

AH-Software (株式会社AHS)

最近ではソフトウェアのパッケージに描かれているキャラクターがゲームプレイを実況している体のゲーム動画が作られており、これらは「VOICEROID実況プレイ」というジャンルの人気コンテンツとなっています。

この「VOICEROID実況プレイ」動画ではマインクラフト(MINECRAFT)という新し目のサンドボックスゲームが殆どを占めています。
「VOICEROID実況プレイ」を制作する世代に受けているのがマインクラフトだからでしょうかね。

ですが、中には古参のゲームファンにも馴染みのあるファイナルファンタジーなどのプレイ動画もありますので、「VOICEROID実況プレイ」動画を見てみたいけど新しいゲームはわからないって人でも、自分の知っているゲームの動画を見ることができますよ。

ボーカロイド(VOCALOID)との違い

ボイスロイドはよくボーカロイド(VOCALOID)と混同されることが多いみたいですね。

この両者、目的も性質も全く違うソフトです。

ボイスロイドはテキスト読み上げソフトで、本の内容やスピーチなどの長い文章を読み上げるものです。
日本語の文章を入力すると、そのとおりにスラスラと明瞭な音声で発音してくれます。

一方のボーカロイドは歌唱合成ソフトです。つまり、歌うソフトウェア。
ボーカロイドは歌を表現するのに必要な声の大きさや抑揚、ピッチなどを細やかに調整できますが、テキストの読み上げ用途には適していません。

この両者が間違われやすい理由としては、名前が似ているということにも一因がありますが、「結月ゆかり」というキャラクターがボイスロイドとボーカロイドのどちらにもいるというのが大きいと思います。
同じ名前で同じ声のキャラクターがボーカロイドとボーカロイドのどちらにもいたら、知らない人が混同するのも無理はありません。

でもゆかりさんかわいいからね、しょうがないね。

ピヨ式調声法

そんなテキスト読み上げソフトであるボイスロイドが歌っていました。数曲ほどリンク貼っておきます。

テキスト読み上げソフトの音声を歌わせるには、歌詞を読み上げた音声を吐き出した後、Melodyneなどのボーカルエディットソフトで歌わせているのかと思っていました。
ですが、実際はボイスロイドのエディターでパラメータを調整して歌わせていたみたいですね。
なんという力技。

この調声法は発案者の名前にちなんで「ピヨ式調声法」と呼ばれています。
詳しくはリンク先の動画をご覧ください。

パラメータの設定は以下に動画の一部を引用して掲載します。
これらを1音づつ地道に設定していくみたいです。

f:id:tora-sub:20160404233703j:image

「ピヨ式調声法」の正体は平均律

「ピヨ式調声法」のフレーズ高さの数値は、ミュージシャンやバンドマンなどの音楽に心得のある人ならピンとくるものがあると思います。
そう、平均律です。

平均律とは1オクターヴを12等分した音律のことで、1通りのチューニングであらゆる調の音楽をカバーできたり、転調が容易であることなどから、現在の音楽の主流となっている音律です。

平均律において、「ド」を基準にした場合の各音程との周波数比は以下のようになります。

音程周波数比
ド(完全一度)2^{0/12}=\sqrt[12]{2}=1.000
ド#(短二度)2^{1/12}=\sqrt[12]{2}\fallingdotseq1.059
レ(長二度)2^{2/12}=\sqrt[6]{2}\fallingdotseq1.12
レ#(短三度)2^{3/12}=\sqrt[4]{2}\fallingdotseq1.189
ミ(長三度)2^{4/12}=\sqrt[3]{2}\fallingdotseq1.260
ファ(完全四度)2^{5/12}=\sqrt[12]{32}\fallingdotseq1.335
ファ#(三全音)2^{6/12}=\sqrt{2}\fallingdotseq1.414
ソ(完全五度)2^{7/12}=\sqrt[12]{128}\fallingdotseq1.498
ソ#(短六度)2^{8/12}=\sqrt[3]{4}\fallingdotseq1.587
ラ(長六度)2^{9/12}=\sqrt[4]{8}\fallingdotseq1.682
ラ#(短七度)2^{10/12}=\sqrt[6]{32}\fallingdotseq1.782
シ(長七度)2^{11/12}=\sqrt[12]{2048}\fallingdotseq1.888
ド(完全八度)2^{12/12}=2.000

これら平均律によって求められた周波数比は、上記の「ピヨ式調声法」で示されているフレーズ高さの数値と近似していることがわかります。

他のテキスト読み上げソフトでも応用可能

この「ピヨ式調声法」ですが、ボイスロイド以外のテキスト読み上げソフトでも同様のことができます。
なぜなら、「ピヨ式調声法」の元になっている平均律は自然界のありとあらゆる音に適用され、どんな音であっても周波数比は変わらないからです。

そのため、ピッチを1音ごとに変える機能がありテキスト読み上げソフトなら、平均律に従って音程を作り出すピヨ式調声法を適用して歌わせることができます。

自動化ツール「KotonoSync」

今では1音ずつ音程を調整せずとも、「KotonoSync」というソフトでVOICEROIDからボーカルを生成できるようです。

KotonoSyncはVSQX(VOCALOIDのシーケンスデータ)を元にボイスロイド用の音程調整済みのフレーズソフトです。
これがあれば簡単にボイスロイドを歌わせられる・・・というわけでなく、なんだかんだで結構大変なようです。
KotonoSync作者およびKotonoSyncでボイスロイドを歌わせる動画の作者さんの努力には、本当に頭が下がります。

2016年4月5日:公開
2020年5月12日:更新