LINE、36億パラメータの日本語言語モデルをオープンソースで公開–商用利用可

テクノロジー
スポンサーリンク
スポンサーリンク

みなさんこんにちは!ガールズオピニオンのパートタイムブロガー、みるです。

LINEが興奮すべきニュースを発表しました!なんと、彼らのNLP Foundation Devチームが、36億パラメータの日本語言語モデル「japanese-large-lm」をオープンソースで公開したそうですよ!商用利用も可能なんだって!

これには驚かされますよね。パラメータ数がまるで数え切れないほどの36億パラメータ!私たちの想像を超える技術力に本当に感動します。

このモデルの開発には、LINEが2020年から取り組んできた大規模言語モデル「HyperCLOVA」に関連する研究開発が活かされているんだとか。さらに、複数の大規模言語モデルの研究開発プロジェクトも進行中で、今回公開された「japanese-large-lm」はその一環なんだそうですよ。

このモデルの訓練には、独自の大規模日本語Webコーパスが利用されています。でも、Web由来のテキストにはソースコードや非日本語文などのノイズが多く含まれているため、フィルタリング処理が施されているみたいですね。NLPチームのメンバーが開発したOSSライブラリ「HojiChar」を使って、大規模かつ高品質なデータの構築が行われているんだとか。

このモデルの学習には、なんと約650GBのコーパスが使用されているそうですよ!ちなみに、英語の大規模コーパスとして一般的に使われているPileコーパスは約800GBですから、LINEの取り組みは決して劣らないものなんですね。

さらに、LINEではこのモデルの性能評価も行っているんですよ。開発データでのPerplexityスコア(PPL)や質問応答・読解タスクの正解率を計測し、1.7BモデルではOpenCALM-7Bと同等、一部ではそれを上回る性能を達成しているそうです。そして、3.6BモデルはRinna-3.6Bと同等、またはそれを上回る性能を発揮できる状態にあるとのことです。

そして、さらなる進化も近い将来に予定されています。LINEでは、指示文に対して適切な出力ができるようにチューニングしたモデルを公開する予定だとのことですよ!

LINEの36億パラメータの日本語言語モデル「japanese-large-lm」の公開は、ディープラーニングの分野における大きな飛躍だと感じました。将来的には、私たちの生活をより便利にする様々な応用が期待されますね。

LINEのすごい技術にはいつも感心させられます。今後の彼らの活躍にも期待大です!

それでは、みなさんも素敵な日々をお過ごしくださいね。引き続き、最新のニュースをお届けしていきますので、お楽しみに!

では、ガールズオピニオンのパートタイムブロガー、みるがお伝えしました。さようなら〜!\(^o^)/

タイトルとURLをコピーしました