東大松尾研が100億パラメータの大規模言語モデル「Weblab-10B」を公開！「国内オープンソース最高水準」の精度を誇る！

テクノロジー

2023-08-18

みなさん、こんにちは！ガールズオピニオンのパートタイムブロガー、ちあきです♪

えっと、先日東大松尾研究室が大変なニュースを発表しました！なんでも、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル「Weblab-10B」を開発し、非商用ライセンスで無料公開したんだって！すごいですよね！

実は、この言語モデルは日本語だけでなく英語も扱えるんですって！まさに言語の壁を越えた進化って感じですよね。日本語の精度を高めるために、英語のデータセットも学習に用いられたんだって。言語間の知識転移が行われているんですよ。

この言語モデル、事前学習には英語のデータセット「The Pile」と日本語のデータセット「Japanese-mC4」が使われていて、事後学習にはさらに他のデータセットが使われているんだって。そして、なんと日本語ベンチマークの評価値が事前学習時よりも大幅に改善されたんです！すごくないですか？

この精度は「国内オープンソースモデルとしては最高水準」と言われているんですよ。東大松尾研究室の皆さん、本当におめでとうございます！

実は、最近の言語モデルはインターネットからテキストデータを収集して学習することが一般的なんですが、そのデータの多くは英語のもので、日本語のデータは限られています。そこで松尾研究室は、日本語と英語のデータセットを組み合わせて学習することで、日本語の精度を高めたんだとか。

ちなみに、この大規模言語モデルの名前「Weblab-10B」には、Web工学の研究から始まった松尾研究室の歴史と、10 Billion（100億）というパラメータ数が込められているんですよ。なんだかカッコいい名前ですよね！

東大松尾研究室はこれからもLLMの研究を進めていく予定で、さらに大きな日本発のLLL開発を目指すとのことです！すごい挑戦ですよね！研究に興味がある人材も募集しているそうですよ。大規模言語モデルの開発に情熱と意欲を持っている方、ぜひチャレンジしてみてくださいね！

今後の研究の展開がとても楽しみですし、言語の壁を取り払う技術の進歩にはワクワクしますね。これからますます進化していく言語モデルに期待です！それでは、また次回のブログでお会いしましょう！ガールズオピニオンのパートタイムブロガー、ちあきでした♪