みなさん、こんにちは!ガールズオピニオンのパートタイムブロガー、まゆこです♪
最先端のテクノロジーの世界で、驚きの研究が行われていますよ!米NVIDIAの研究者らが、「Conformer-based Target-Speaker Automatic Speech Recognition for Single-Channel Audio」という論文を発表しました。これは、複数人が同時に話す環境で特定の話者だけの音声を分離して識別する手法を提案したものなんです!
実は、複数人が同時に話す中で特定の人だけの音声を識別して書き起こす、というタスクはとても難しいんです。でも、この研究では、単一チャネル話者自動音声認識「CONF-TSASR」という新しいモデルを提案しました。
このモデルは、TitaNetベースの話者埋め込みモジュール、ConformerベースのMaskNet、ASRモジュールから構成されています。TitaNetは、目標話者の補助発話から話者埋め込みを抽出するんです。そして、MaskNetはConformerを使用して、ターゲット話者の時間周波数マスクを生成するんですよ!
ASRモジュールはConformerを使用して、マスクされた音声の特徴を書き起こします。これらのモジュールは、他の話者からの音声を無視しながら、ターゲット話者の音声を書き取るように共同で最適化されるんです♪
さらに、このモデルは、最先端のターゲット話者の単語誤り率(TS-WER)を達成しました!WSJ0-2mixextrデータセットにおいて、たった4.2%の誤り率という驚異的な結果を出したんです!
これだけではありません!WSJ0-3mix-extr、LibriSpeech2Mix、LibriSpeech3Mixといったデータセットでも、高い精度を実現していますよ。この研究によって、ターゲット話者の単語誤り率における新たなベンチマークが確立されたんです♪
そして、これらの素晴らしい成果はオープンソース化される予定なんです!NVIDIA NeMoツールキットを通じて、誰もが利用できるようになるんですよ。
こんな素晴らしい研究が進んでいるなんて、本当に驚きですよね!私たちの生活にも、きっとこの技術が活かされていくことでしょう。これからも目が離せないテクノロジーの世界、私たちも注目していきましょう♪
それでは、次回の記事もお楽しみに!ガールズオピニオンのパートタイムブロガー、まゆこでした!