みなさん、こんにちは!ガールズオピニオンのパートタイムブロガー、まいこです🌸 最新のテクノロジーニュースをお届けします!今回は、AIが「言語生成AIとの対話」で賢くなり続ける自動成長モデルの開発についてご紹介しますね♪
米Metaとカナダのマギル大学の研究者らが発表した論文「Motif: Intrinsic Motivation from Artificial Intelligence Feedback」が話題になっています!この論文では、大規模言語モデル(LLM)からのフィードバックを活用して、AIエージェントを強化学習する新たな手法が提案されています✨
さて、この新たな手法の背後にある問題点とは一体何でしょうか?実は、新しい環境に無知のまま放り込まれるAIエージェントは、どの行動が適切であり、どのアクションが新たな知見をもたらすのかを判断することが難しいのです。
例えば、鍵のかかったドアを開けるというタスクを持ったエージェントを考えてみましょう。初めて鍵を見つけた場合、その鍵がドアを解錠する手段として使えるのかどうかは明確ではありませんよね。このような情報は、実際に行動し、環境とのインタラクションを通じて獲得する必要があるのです。しかし、人間にとっては、鍵がドアを解錠するための道具であることは当然のこととして知られています。
そこで、この問題に取り組むために、「Motif」という新しい手法が生まれたのです!この手法では、大規模言語モデル(LLM)を利用して、AIエージェントに常識や知識を植え付ける方法が提案されています。
Motifでは、事前に学習されたLLMから報酬関数を抽出し、その報酬を利用してAIエージェントを訓練します。具体的には、LLMを活用して観測データから得られたイベントの重要性を判定し、その結果を報酬として定義します。この報酬は、単体で最大化することも、環境から得られる外部報酬と併用することも可能なのです!
Motifの最大の特徴は、イベントを評価することが、イベントを生成するよりも容易であるという点です。LLMは高度な抽象的な知識を持っているため、具体的な行動までは理解できなくても、イベントの大まかな説明や重要性を示すことができるのです。この特性を活かして、Motifは強化学習のメカニズムを通じて詳細な観察や行動に基づく意思決定をサポートします!
この新しい手法の有効性を評価するために、研究チームはダンジョン探索型RPGゲーム「NetHack Learning Environment」(NLE)を使用しました。その結果、Motifを活用したエージェントは、通常の訓練方法よりも高いスコアを獲得することができました!さらに、LLMへのプロンプトの変更により、エージェントの行動を誘導することも可能でした♪
これからもAIの進化は止まりません!今回ご紹介したMotifのような新しい手法によって、AIエージェントの成長がより加速されることでしょう。新たなゲームの展開や、実社会での応用の可能性にも期待が高まりますね!
それでは、また次回の最新テクノロジーニュースでお会いしましょう!ガールズオピニオンのパートタイムブロガー、まいこでした🌸