合同ゼミ2025発表(MIPLAB学生全員)
2025年7月26日に開催された 第12回 AI時代を担う世代による情報処理技術研究会 において,MIPLABのM1学生2名とB4学生4名による研究発表が行われました.
発表報告
発表リスト
- 天田侑輝,``舌亜全摘出者のためのVITS-TTSを転用した声質変換におけるファインチューニングの検討''
- 鎌田輝夏,``DNNを用いたブラキシズム分類における音響信号と筋電信号のモダリティ融合方式の検討''
- 木山大輔,``環境音再構成のためのオノマトペを中間表現とした環境音認識方式の検討''
- 篠田陸斗,``構音障害者音声の明瞭度分析に向けたスペクトログラム上の音素視認性に関する分析''
- 高見陽斗,``環境音識別のためのAutoEncoder抽出特徴量の有効性に関する可視化による検討''
- 藤本亮一,``環境音認識に基づく対話応答を可能にする雑談型音声対話エージェントに関する検討''
概要
舌亜全摘出者のためのVITS-TTSを転用した声質変換におけるファインチューニングの検討(天田)
本報告では, 舌亜全摘出者のコミュニケーション支援のための TTS として学習された VITS を転用した,声質変換におけるファインチューニングの検討を行った.また,予備実験として Posterior Encoder と Flow の潜在表現の可視化を行った.潜在表現の可視化の結果,潜在表現は障碍者音声であるか健常者音声であるかに大きく影響を受けていることが確認できた.変換音声の音韻明瞭度の客観評価実験の結果,どの方式においても音韻明瞭度の改善が見られなかった.
DNNを用いたブラキシズム分類における音響信号と筋電信号のモダリティ融合方式の検討(鎌田)
本研究では,機械学習を用いて筋電信号と音響信号からブラキシズムの種類およびその他の筋活動を分類することを目的とする.本報告では,ブラキシズム分類に適した筋電信号と音響信号の融合方式について検証を行った.実験では,モダリティ間の特徴に着目する Early Fusion 方式と,モダリティごとの特徴を個別に捉える Late Fusion 方式の分類モデルを構築し,分類精度の比較を行った.その結果,Early Fusion 方式では F1 スコアが 0.009 ポイント高い結果となったものの,全体として大きな精度差は見られなかった.一方で,動作ごとに分類精度にばらつきが見られ,動作の特性によって適した融合方式が異なる可能性が示唆された.
環境音再構成のためのオノマトペを中間表現とした環境音認識方式の検討(木山)
本研究では,プライバシー保護の観点から実際の環境音を使えない場合に,オノマトペを中間表現として環境音を再合成することで,人が聞いたときの感じ方を保持したまま,環境音を再構成することを目指す.本報告では,環境音からオノマトペを認識する方式を提案し,その妥当性を定量的に評価した.実験の結果,Top-1 正解率が35.56%,Top-3 正解率が52.32%,Top-5 正解率が60.57% となり,文字誤り率が14.9%となった.
構音障害者音声の明瞭度分析に向けたスペクトログラム上の音素視認性に関する分析(篠田)
本報告では舌を固定する器具を用いて疑似的に作り出した構音障害者の音声と健常者の音声を比較し,どの程度明瞭さに違いがあるかを評価するために,音声のスペクトログラムを用いて,各音素がスペクトログラム上でどのように表れているかの分析を行った.また疑似的な構音障害者の音声と実際の構音障害者の音声のスペクトログラム上での各音素の表され方の比較も行った.
環境音識別のための AutoEncoder 抽出特徴量の有効性に関する可視化による検討(高見)
近年,環境音識別ではPANNs などの事前学習済みモデルが高精度を示しているが,その多くは教師あり学習や大量の計算資源への依存を伴う.本研究では,軽量かつ教師なしで動作可能な自己符号化器(AutoEncoder)による特徴抽出の有効性を再評価した.ESC-50 および TUT データセットを用い,AE で得られた潜在特徴をt-SNE により可視化し,識別器による定量評価を行った.その結果,CAE は視覚的な分離では PANNs に及ばない場合もあったが,TUT における F1 score では PANNs を上回るなど,旧来の手法にも依然として競争力があることが示された.
環境音認識に基づく対話応答を可能にする雑談型音声対話エージェント(藤本)
本研究では,環境音認識結果を取り入れることが可能な雑談型音声対話エージェントを目指す.Python ライブラリの sounddevice を用いて音声入力を実現し,入力した音声を faster-whisper によるテキストへの変換と PANNS inference による環境音分析を行う.得られたテキストデータと環境音分析結果から,既存の応答生成器を利用して応答文を作成し,エージェントを動かす.
参考URL
- https://uwanofumito.github.io/jointseminar/index.html
- https://uwanofumito.github.io/jointseminar/program.html
雑感(原)
TBA
最後は,懇親会にて他大学・他研究室の皆様や親睦を深めました. 皆様,ありがとうございました.