ISIT

最先端のAI技術!マルチモーダルAIの今後の活躍とは?

  • AI
  • IT用語解説

ChatGPTやBardなど、AIを活用したツールが普及し始めています。

そんなAIですが、シングルモーダルAIとマルチモーダルAIの2種類存在するのをご存知でしょうか?

今回は、今後さらに発展していくと期待されている「マルチモーダルAI」についてご紹介いたします。

マルチモーダルAIとは

マルチモーダルAIとは、音声やテキスト、画像などのデータを総合的に処理できるAIのことです。

現在主流となっているAIは、シングルモーダルAIで、テキストデータならテキストデータのみ、画像データなら画像データのみと1種類のデータしか処理できません。

最近では、多くのIT企業がこのマルチモーダルAIの開発に力をいれており、近い将来、生成AI*にマルチモーダルAIが搭載されるのではないかと言われています。

*生成AIについての詳細は、こちらの「ビジネスにAIをどう取り入れる? 生成AIの活用シーンとは」をご覧ください。

マルチモーダルAIでできること

異常の検知

工場などの製造現場では、設備や製品の異常検知にマルチモーダルAIが活用されています。

複数のセンサーを設置し、振動や温度、湿度を計測、そのデータと画像データ、音声データを組み合わせることで、機械の異常や異物混入をいち早く発見することができます。

さらに製造現場では、従業員の勤怠管理やシフト管理といった管理業務まで、マルチモーダルAIを活用できるのではないかと期待されています。

防犯・監視

マルチモーダルAIを防犯カメラに搭載することで、犯罪やトラブルの早期発見や防止に役立てることができます。

たとえば、2人の人が監視カメラに写っているとします。画像データだけではどのような状況なのかを判断できません。

マルチモーダルAIを搭載した防犯カメラで状況を分析してみると、音声データからは大声で怒鳴りあっている、動作データからは2人が取っ組み合っている様子が見られたとき、なにかトラブルが起きそうになっていることがわかります。

このように、マルチモーダルAIで得られる様々なデータから状況を判断・分析・危険を察知し、警備アラートを鳴らすなどすると、犯罪やトラブルの防止に繋がります。

また実際に犯罪やトラブルが起こってしまった際にも、マルチモーダルAIが搭載された防犯カメラを確認することで、当事者についてのより細かな特徴やデータを得ることができます。

自動運転

自動運転についてもマルチモーダルAIが活用されて始めており、この自動運転での活躍についてが1番想像しやすいかもしれません。

障害物や周囲の車、人、信号、標識、車間距離など人間が無意識に判断を行っている部分をマルチモーダルAIが代わりに担うようなイメージです。

自動運転では、複数台のカメラや集音マイク、GPSなどのデータからマルチモーダルAIが総合的な判断を行い、精度の高い自動運転を可能にします。

医療

医療分野においてもマルチモーダルAIの活躍が期待されています。

患者一人ひとりの検査結果や患部の状態、X線写真、カルテのデータなどの様々なデータを駆使することで、患者の病気を正確に判断したり、症状や状態から病気がより正確にわかるようになります。

マーケティング

マーケティングの分析方法には、3C分析やSWOT分析、PEST分析など数多く存在し、その分析対象も自社や競合、またそれに対する製品、顧客など様々です。

マルチモーダルAIをマーケティング分析に活用することで、見たい指標を膨大なデータの中から迅速かつリアルタイムに処理し弾き出すことができます。

また、店舗型営業であれば、店頭にマルチモーダルAIが搭載されたカメラを設置しておくことで、顧客の表情や会話なども加味したより高度な分析ができるようになります。

ロボット

ロボットにマルチモーダルAIを搭載することで、画像はもちろん、触覚や角度、速度、遠近感などを学習し、料理の盛り付けや洋服を畳むなどより細かな動作もできるようになります。

さらに、ロボットのコミュニケーション分野においてもマルチモーダルAIが期待されています。

マルチモーダルAIで会話相手の表情や声から感情をより正確に判断できるようになれば、複雑な会話や自然なコミュニケーションができるようになります。

企業やホテル、マンションの受付や介護施設での利用者の話し相手などがロボットになる日も遠くないのかもしれません。

代表的なマルチモーダルAI

GPT-4

GPT-4とは、OpenAI社が公開している自然言語処理AIのことです。

主に、「ChatGPT*」を中心に取り入れられており、GPT-3上位互換モデルです。

GPT-4の中には「GPT-4V」というものがあり、この「GPT-4V」では、画像とテキストの2種類のデータを同時に入力することで、画像に対する説明文を出力することができます。

*ChatGPTについてはこちらの「ChatGPTをビジネスに活かす方法」をご覧ください。

Bard・Gemini

BardやGeminiはGoogle社が提供している対話型のAIサービスです。

ChatGPTと同様に、テキストで質問を投げかけると答えを返してくれます。

また、後に発表された「Gemini」では、画像とテキストはもちろん、音声や動画などより複雑なデータを扱うことができます。

マルチモーダルAIは、テキストや画像、音声、動画などの様々な情報を同時に処理し、出力するAI技術です。

AIといえばシングルモーダルAIが一般的ですが、現在ではさまざまな企業がマルチモーダルAIの開発に力を入れています。

また、マルチモーダルAIの精度は、ディープラーニングによって日々進化していくと考えられています。

医療分野や自動運転、ロボットなどへの活用も期待されています。

AIがより身近になるかもしれないマルチモーダルAIの今後の展開に注目してみてください。