WORLD と ニューラルボコーダーを利用した UTAU エンジンです。自然なクロスフェードと高品質な出音の両立を目指します。
- kuresampler v0.1.0 で追加されたモードです。サーバー・クライアント方式により高速に動作します。
- UTAU, OpenUtau 両対応です。
- resampler として使用可能です。wavtool は通常のものを使用してください。
- resampler として下記のいずれかを指定してください。
- kuresampler_K_Client.exe
- kuresampler_R_Client.exe
- CUDA対応環境の場合、reinstall_torch.bat を一度実行すればGPUを使って高速レンダリングできるようになります。
- kuresampler v0.0.1 以前と同様の動作をします。
- OpenUtau 非対応です。
- resampler としてのみ使用可能です。wavtool は通常のものを使用してください。
- resampler として下記のいずれかを指定してください。
- kuresampler_K.exe
- kuresampler_R.exe
- kuresampler_fast_K.exe
- kuresampler_fast_R.exe
- fast が付くエンジンは高速ですが高負荷です。
- CUDA対応環境の場合、reinstall_torch.bat を一度実行すればGPUを使って高速レンダリングできるようになります。
| Engine | Vocoder Model | Description | Characteristic | Training Dataset | License or Terms | Requires notation ? |
|---|---|---|---|---|---|---|
| kuresampler_K.exe | usfGAN_EnunuKodoku_0826 | 「ENUNU蠱毒企画 歌唱データベース」を学習したモデルです。 | 低~高音域の男声・女声両方の幅広い声質に適します。 | https://github.com/oatsu-gh/enunu_kodoku_singing | https://github.com/oatsu-gh/enunu_kodoku_singing/blob/main/README.md | NO |
| kuresampler_R.exe | usfGAN_NamineRitsu#4310 | 「NNSVS/ENUNU 波音リツ #4139 CRISSCROSS 5スタイル」で使用されているモデルです。 | 低中~高音域の女声に適します。音域によらず一貫した声質が得られます。 | private | https://www.canon-voice.com/terms/ | NO |
___
.//⌒___ \ + 。 + 。 * 。
//_/ \\ \ + 。 + 。 * 。
\\ \
* + (( | イヤッッホォォォオオォオウ!
| ∩
+ 。 | | | * + 。 + 。 +
| | |
| / | ._ + 。 + + *
\ ̄ ̄ ~/ /~ ̄.\
||\ ~^~^~^~ \ + 。 + + *
||\|| ̄ ̄ ̄ ̄ ̄ ̄ ̄|| ̄ それがVIPクオリティ
|| || ̄ ̄ ̄ ̄ ̄ ̄ ̄|| https://hebi.5ch.net/news4vip/
- resampler のみで使用する場合
- 長所:パラメトリック歌声合成のわりに自然な声が得られる。
- 短所:一般的なUTAUエンジンに比べてレンダリングが遅い。
- resampler と wavtool 両方で使用する場合 (未実装)
- 長所:パラメトリック音声合成のわりに自然な声が得られる。
- 長所:原音の音階が異なるクロスフェードでも、比較的自然な合成ができる。
- 短所:一般的なUTAUエンジンに比べてレンダリングが遅い。
- wavファイルを用意すれば nnsvs で uSFGAN ボコーダーモデルを自作可能です。
B,g,e,l以外は動作未検証です。- デフォルトの伸縮方法はストレッチ式 (
e) です。ループ式に変更したい場合はループフラグ (l) を使用してください。
| flag | range | default | description |
|---|---|---|---|
| B | 0 ~ 100 | default:50 | 息成分の強さ(ブレシネス)。大きいほど息っぽい。0~49では B0 の時非周期性指標が全て0になるように乗算。51~100では B100 の時、1000Hz~5000Hz 帯の非周期性指標が全て1になるように加算。 |
| eb | 0 ~ 100 | default:0 | 語尾の息成分の強さ。大きいほど息っぽい。 |
| ebs | -1000 ~ 1000 | default:0 | ノート前半部分の語尾息がかからない時間を5ms単位で指定。負の数を指定するとノート末尾からの時間。 |
| eba | 0 ~ 1000 | default:0 | ebフラグのアタックタイムを5ms単位で指定。 |
| g | -100 ~ 100 | default:0 | 疑似ジェンダー値。負で女声化・若年化、正で男声化・大人化。 |
| t | -100 ~ 100 | default:0 | 音程の補正。1cent単位。 |
| P | 0 ~ 100 | default:86 | ピークコンプレッサー。P100 の時 volume 適用前の音量最大値が -6dB になるよう正規化。P0 の時は無効。 |
| e | - | default: True | wav の伸縮方法。通常はループ方式で、このフラグを設定するとストレッチ式になる。 |
| l (エル) | - | default: False | wav の伸縮方法をループ式にする。 |
| A | -100 ~ 100 | default:0 | ピッチ変動にあわせて音量が変化。1~100では基準より高いとき音量が小さく、-1~-100では基準より低いとき音量が小さくなる。 |
| gw | 0 ~ 500 | default:0 | うなり声(グロウル)。 |
| gws | -1000 ~ 1000 | default:0 | ノート前半部分のグロウルがかからない時間を5ms単位で指定。負の数を指定するとノート末尾からの時間。 |
| gwa | 0 ~ 1000 | default:0 | gwフラグのアタックタイムを5ms単位で指定。 |
| vf | -500 ~ 500 | default:0 | 疑似エッジ。エッジがかかる長さを5ms単位で指定。 |
| vfw | 0 ~ 300 | default:100 | 疑似エッジの1回あたりの長さ(%指定)。 |
| vfp | 0 ~ 100 | default:20 | 疑似エッジの1回あたりの無音の長さ(%指定)。 |
LEIRH (https://x.com/LEIRHds)
- 初配布
- 声が幼く聞こえる不具合を修正
- g フラグや B フラグ適用時にWAV合成できない不具合を修正 (同梱のPyRwuを改造)
- g フラグのフォルマントシフトのスケールを log から mel に変更 (同梱のPyRwuを改造)
- reinstall_torch.bat を追加
- FastAPI を使用した サーバー & クライアントモードを追加。これにより、レンダリング高速化。
- resampler として kuresampler_K_Client.exe / kuresampler_R_Client.exe を指定して使用。
- OpenUtau 対応