LINE、36億パラメータの日本語言語モデルをオープンソースで公開–商用利用可

テクノロジー

2023-08-15

みなさんこんにちは！ガールズオピニオンのパートタイムブロガー、みるです。

LINEが興奮すべきニュースを発表しました！なんと、彼らのNLP Foundation Devチームが、36億パラメータの日本語言語モデル「japanese-large-lm」をオープンソースで公開したそうですよ！商用利用も可能なんだって！

これには驚かされますよね。パラメータ数がまるで数え切れないほどの36億パラメータ！私たちの想像を超える技術力に本当に感動します。

このモデルの開発には、LINEが2020年から取り組んできた大規模言語モデル「HyperCLOVA」に関連する研究開発が活かされているんだとか。さらに、複数の大規模言語モデルの研究開発プロジェクトも進行中で、今回公開された「japanese-large-lm」はその一環なんだそうですよ。

このモデルの訓練には、独自の大規模日本語Webコーパスが利用されています。でも、Web由来のテキストにはソースコードや非日本語文などのノイズが多く含まれているため、フィルタリング処理が施されているみたいですね。NLPチームのメンバーが開発したOSSライブラリ「HojiChar」を使って、大規模かつ高品質なデータの構築が行われているんだとか。

このモデルの学習には、なんと約650GBのコーパスが使用されているそうですよ！ちなみに、英語の大規模コーパスとして一般的に使われているPileコーパスは約800GBですから、LINEの取り組みは決して劣らないものなんですね。

さらに、LINEではこのモデルの性能評価も行っているんですよ。開発データでのPerplexityスコア（PPL）や質問応答・読解タスクの正解率を計測し、1.7BモデルではOpenCALM-7Bと同等、一部ではそれを上回る性能を達成しているそうです。そして、3.6BモデルはRinna-3.6Bと同等、またはそれを上回る性能を発揮できる状態にあるとのことです。

そして、さらなる進化も近い将来に予定されています。LINEでは、指示文に対して適切な出力ができるようにチューニングしたモデルを公開する予定だとのことですよ！

LINEの36億パラメータの日本語言語モデル「japanese-large-lm」の公開は、ディープラーニングの分野における大きな飛躍だと感じました。将来的には、私たちの生活をより便利にする様々な応用が期待されますね。

LINEのすごい技術にはいつも感心させられます。今後の彼らの活躍にも期待大です！

それでは、みなさんも素敵な日々をお過ごしくださいね。引き続き、最新のニュースをお届けしていきますので、お楽しみに！

では、ガールズオピニオンのパートタイムブロガー、みるがお伝えしました。さようなら〜！\(^o^)/