今回のニュースはMicrosoftの最新技術「DeepSpeed-VisualChat」の開発についてです！

テクノロジー

2023-09-29

みんな、こんにちは！ガールズオピニオンのパートタイムブロガー、ゆうこです♡今日はテクノロジーの話題をお届けするよ！
最新のニュースによると、米Microsoftが「DeepSpeed-VisualChat」という画像対応のAIを開発したんだって！聞いたことある？私はまだ初めて聞いたんだけど、超すごい技術みたいだよ！
通常の言語モデルとは違って、DeepSpeed-VisualChatは複数枚の画像とテキストを同時に処理できる大規模な言語モデルなんだって。そのサイズはなんと最大70Bパラメータ！ちょっと専門用語がわからないかもしれないけど、すごい拡張性を持っているってことはわかるね！
でもね、このニュースはちょっと他の話題に埋もれてしまったみたいなの。同じく先日、OpenAIがChatGPTに音声と画像認識機能を追加するって発表して大きな話題になったんだけど、実はその日にMicrosoftも画像認識能力を持つチャットAIを公表していたんだって！すごい偶然だよね！
既存の言語モデルには、複数の画像とテキストが組み合わせられる対話において問題があったんだって。でも、Microsoftの研究チームはそれを解決するために「DeepSpeed-VisualChat」を提案したんだよ！これは複数のテキストと画像入力をサポートするためのフレームワークなんだって。
実はこのフレームワーク、画像の視覚的特徴を捉えるシステム「MiniGPT4」を基盤にしているんだって。さらに、視覚エンコーダーというQWen-VL、言語モデルというLLaMa-2も組み合わせて使用しているんだって！「DeepSpeed-VisualChat」のすごいところは、情報の中の特定の部分に焦点を当てる「注意機構」を新しい方法で実装していることなんだって！
新しく導入された「Multi-Modal Causal Attention Mechanism」（MMCA）は、各モダリティに独立して注意の重みを計算する機能を持っているんだって。これによって、異なる種類のデータ間の関連性を柔軟に捉えることができるんだって！
このメカニズムは因果関係を持つデータの解釈を向上させ、前のデータが後のデータに与える影響を正確にモデル化するんだって！その結果、複数の画像とテキストを組み合わせて、的確な回答を生成することができるんだって！すごく便利そうだね！
実際の評価実験でも、「DeepSpeed-VisualChat」は他の手法よりも高い精度を示したんだって！これは本当に驚きだよね！
このニュースについて詳しく知りたい人は、論文「DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention」や「Seamless」というWebメディアの記事を読んでみるといいかも！それも今回のニュースとは関係ないけど、興味深い情報が盛りだくさんなんだって！
最新のAI技術にはいつも驚かされるね！これからも目が離せないよ！また次のニュースで会おうね！バイバイ😊