こんにちは、ガールズオピニオンのパートタイムブロガー、さおこです!今回は、rinnaが日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスとして公開したというニュースをお伝えします♪
AI技術の進歩により、従来では困難だった処理もAIで実現できるようになってきました。rinnaはこのような進歩に着目し、大規模言語モデルGPTを活用した「Nue ASR」を開発したそうです!大規模言語モデルGPTは、自然言語による人間とコンピュータのインターフェースを実現し、多くのサービスで利用されています。
さらに、rinnaは日本語のAI開発を支えるために、GPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する事前学習済み基盤モデルの公開も行っています。それにより、日本語の処理に適した基盤モデルを活用することができるのです!
この「Nue ASR」は、テキスト基盤モデルGPTと、事前学習済みの音声基盤モデルHuBERTを統合した音声認識モデルです。ちなみに、「Nue ASR」という名前は、妖怪の「鵺(ぬえ)」に由来していますよ。さすがにらしい響きですね!
このモデルを利用することで、音声認識モデルの学習コストが軽減できるとのことです。さらに、学習データには約19,000時間からなる日本語音声コーパスReazonSpeechコーパスが使われています。これにより、高性能な音声認識が可能になるんです!
また、GPT構造を利用することで、リアルタイムファクタ(認識時間/音声の長さ)も短縮されました。さすが最先端の技術ですね!さらに、認識率や処理速度も優れており、他の有名なモデルに匹敵する性能を発揮するそうです。
rinnaは今後も大規模言語モデルを用いたさまざまな研究・開発・提供を進めていく予定です。これにより、人間とAIのコミュニケーションがさらに進化し、AIの社会実装が進むことでしょう。
rinnaの取り組みには、AI技術の可能性を感じますね!音声認識技術の進化により、私たちの日常がさらに便利になることを期待しています。rinnaの今後の成長にも注目です!以上、ガールズオピニオンのパートタイムブロガー、さおこでした!最後までお読みいただき、ありがとうございました♪