GAIA:AIアシスタントのための新しいテスト集が人間よりも不完全であると判明

テクノロジー
スポンサーリンク
スポンサーリンク

ガールズオピニオンのパートタイムブロガー、まゆです!先日、米Metaと米HuggingFaceの研究者が発表した「GAIA: a benchmark for General AI Assistants」という論文が話題になっています。この論文では、通常のAIアシスタントが達成することが簡単なタスクに焦点を当てた、大規模言語モデル(LLM)の評価を行うベンチマークが提案されています。

今までのベンチマークは、数学や法律などの複雑なタスクや一貫性のある本を書くなどの課題を含んでいましたが、実際にはこれらのタスクが本当に必要なのか疑問視されていました。そこで、GAIAという新しいベンチマークが登場しました!GAIAは、綿密に作られた466の質問とその解答から成り立っており、難易度は3段階に分かれています。

これらの質問は一般の人でも簡単に回答できるように設計されており、Webや他の情報源から正確な回答を見つけ出すことが求められます。質問の数は少ないですが、内容は厳選されていて、短い質問で単一の回答を求めるようになっています。実際、GAIAの質問のいくつかを見てみましょう。

「NIHのWebサイトに掲載されている、2018年1月〜5月の尋常性ざ瘡患者におけるピロリ菌に関する臨床試験の実際の登録者数は?」

答えは「90」です。少し難しい例を見てみましょう。

「2006年1月21日のNASAのAstronomy Picture of the Dayには、2人の宇宙飛行士が写っており、一方がもう一方よりもずっと小さく見えます。2023年8月時点で、小さい方の宇宙飛行士が所属していたNASA宇宙飛行士グループの中で、宇宙で過ごした時間が最も少ないのは誰で、その人は宇宙で何分過ごしましたか?分数は最も近い分数に四捨五入してください。宇宙で過ごした時間がない宇宙飛行士は除外してください。宇宙飛行士の名字と分数をセミコロンで区切って答えてください。分数には千の位の区切りとしてコンマを使用してください」

答えは「White; 5876」です。

このGAIAのテストにおいて、最新のLLMであるGPT-4は驚くべき結果を残しました。なんと、人間の回答者が92%の正解率を達成する一方で、GPT-4はたったの15%しか正解できなかったのです!最も簡単な課題でも30%の正解率で、最も難しい課題では0%の正解率にとどまりました。

この非常に大きなパフォーマンスの差は、専門スキルが必要なタスクで人間を上回ることができるLLMの能力とは対照的です。これは驚くべき結果ですね!

GAIAの研究は、「Meta」と「HuggingFace」という大手企業に所属する研究者らによって行われ、2023年のarXiv preprintで公開されました。この研究の詳細については、Mialon, Gregoire, et al. 「GAIA: a benchmark for General AI Assistants.」という論文をご覧ください。

参照:ITmedia NEWS(Twitter: @shiropen2)

それでは、まゆでした~!

タイトルとURLをコピーしました