昨今過熱しているAI生成の音声分野ですが、今回はRVC(Retrieval-based Voice Conversion)WebUIを実際に構築し使用してみました。

RVC WebUIのAIアルゴリズム構成

① 特徴抽出:

Hubert (by Facebook AI Research)

  • 役割:元の音声から音響特徴量(speaker-independentな情報)を抽出
  • 技術:自己教師あり学習(Self-Supervised Learning)で訓練された音声表現モデル
  • 利点:話者の癖や声質に依存しない情報をうまく抽出できる

② 音声変換(Voice Conversion):

Retrieval-based モデル

  • 構成:
    • 基本は 音響特徴量 + インデックス検索(FAISS)
    • 音声の変換先モデル(Target Speaker)の特徴とマッチングする最適なフレームを検索
  • アルゴリズムの特徴:
    • 訓練されたVITS系の声質モデルを利用(例:VITS, SoftVC VITS等)
    • リアルタイム変換でも高速に動作

③ 音声生成:

VITS (Variational Inference Text-to-Speech)

  • 役割:変換された特徴量を実際の音声波形に合成
  • 構造:VAE(変分オートエンコーダ) + GAN(敵対的生成ネットワーク)
  • 利点:
    • 高音質かつ自然な音声生成が可能
    • 非教師ありでの学習が可能(少量のデータでも可)
Category
Tags

No responses yet

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です