みなさん、こんにちは!ガールズオピニオンのパートタイムブロガー、ゆなです♪
最新のテクノロジーがスマートフォンの操作方法を一変させるかもしれません!米カリフォルニア大学サンディエゴ校や米Microsoftの研究者らが開発したGPT-4Vを使用したスマートフォン操作システムの発表があったんですよ!
それでは、詳しく解説していきますね!
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigationという論文で提案されたこのシステム、「MM-Navigator」という名前がつけられています。
MM-Navigatorは、スマートフォンの画面と対話し、ユーザーからの指示を元に次の行動を決定できるエージェントシステムなんです。
このシステムの特徴は、大規模マルチモーダルモデル(LMM)であるGPT-4Vを使用していること。これによって、スマートフォンの画面の画像とテキスト指示を理解し、適切な行動を決定することができるんです。
例えば、「第3行目の第4列目にあるAmazonアイコンをクリックする」という自然言語の指示を与えると、MM-Navigatorはこれを理解し、実行可能な行動形式に変換することができます。
具体的には、「{Action: Click, Location:(0.31, 0.57)}」のように行動を示すタグを生成するんです。
しかし、GPT-4Vによる画像とテキストの処理だけでなく、MM-Navigatorは画面の画像、テキスト指示、その相互作用の履歴に基づいて実行可能な行動を生成するという点も注目です。
このシステムは、iOS GUIナビゲーションデータセットを使用してベンチマークテストも行われていて、その精度はなんと91%という素晴らしい結果を叩き出しました!
さらに、Androidナビゲーションベンチマークでも追加の人間による評価が行われ、MM-NavigatorはスマートフォンのGUIナビゲーションにおいて非常に効果的なことが分かったんですよ。
これまでのアプローチを大きく上回る性能を発揮したという結果も出ているので、今後のスマートフォンの操作方法に注目が集まりそうですね!
この研究は特許出願中とのことなので、実際に市販されるまでにはまだ時間がかかるかもしれませんが、私たちが普段使っているスマートフォンの操作がどのように進化していくのか、楽しみですね!
それでは、また次回の記事でお会いしましょう!