AIエージェントは画面を操作する段階へ。Gemini 3.5 Flashのcomputer useが示す次の実務

#AIエージェント#業務自動化#Google Gemini#AIガバナンス#海外トレンド
AIエージェントは画面を操作する段階へ。Gemini 3.5 Flashのcomputer useが示す次の実務

AIエージェントの競争は、文章を返すだけのモデル性能から、実際の画面を見て操作する能力へ移っています。Googleは2026年6月24日、Gemini 3.5 Flashにcomputer useを組み込んだと発表しました。これは、AIがブラウザやアプリ画面を理解し、クリック、入力、選択といった操作を実行するための機能です。

これまでcomputer useは専用モデルや実験的な枠組みとして語られがちでした。今回のポイントは、それがGemini 3.5 Flashという通常利用される高速モデルに統合されたことです。AIエージェントが一部の研究デモではなく、開発者や企業が日常業務に組み込みやすい部品になりつつあります。

なぜ海外で話題なのか

Hacker Newsでも、この発表はAIエージェントの実用化に関わる話題として共有されていました。背景には、企業がAIに期待する仕事が「回答」から「作業完了」へ移っていることがあります。

Googleの発表によると、Gemini 3.5 Flashのcomputer useは、ブラウザ、モバイル、デスクトップ環境を対象にした操作を支援し、Google AI StudioやVertex AIで利用できるようになります。APIのリリースノートでは、操作意図を扱う簡略化されたアクション、安全ポリシー設定、プロンプトインジェクション検知の強化も説明されています。

つまり、単にAIが画面を触れるようになったという話ではありません。企業が本番環境で使うために必要な、安全性、制御、監査の方向へ進んでいる点が重要です。

注目ポイント

第一に、AIエージェントの導入範囲が広がります。既存システムにAPIがなくても、画面操作であればAIが人間と同じ入口から作業できます。古い管理画面、社内ツール、取引先ポータルのようにAPI連携が難しい業務ほど、computer useの価値が出ます。

第二に、モデルの速度とコストが重要になります。長い作業を任せるには、推論が遅すぎると実務に乗りません。Gemini 3.5 Flashのような高速モデルに操作能力が入ることで、単発のデモではなく、繰り返しの業務処理に近づきます。

第三に、安全設計が競争軸になります。AIがメール、管理画面、決済、顧客情報に触れるなら、間違ったクリックや悪意ある指示への耐性が必要です。特にWebページ上の文章にAIへの隠れた指示を埋め込むプロンプトインジェクションは、画面操作型エージェントにとって現実的なリスクです。

日本の読者が見るべきポイント

日本企業には、API化されていない業務画面や、担当者の手作業に依存する処理が多く残っています。請求書の確認、予約管理、在庫登録、求人媒体の更新、広告管理画面のチェックなど、画面操作型エージェントと相性のよい業務は少なくありません。

ただし、いきなり本番操作を任せるべきではありません。最初に向いているのは、読み取り、照合、下書き、手順書に沿った確認です。送信、削除、決済、契約変更のような不可逆な操作は、人間承認を挟むべきです。

導入時には、AIに渡すアカウント権限を最小化し、操作ログを残し、作業範囲を明確に区切る必要があります。AIエージェントは優秀な新人スタッフのように扱うのが現実的です。権限を渡しすぎず、重要操作はレビューし、失敗しても戻せる業務から始めるべきです。

注意点

computer useは万能ではありません。画面レイアウトの変更、読み込み待ち、ポップアップ、認証、例外処理に弱い場面があります。人間なら一瞬で判断できる曖昧な画面でも、AIには誤解が起きます。

また、AIが外部サイトを読む場合、サイト内の悪意ある指示をそのまま信じるリスクがあります。Googleが安全ポリシーやプロンプトインジェクション検知を打ち出しているのは、この問題が実務上の中心課題になっているためです。

企業側は、AIエージェントを導入する前に、操作できるURL、許可するアクション、禁止するデータ、承認が必要な操作を定義する必要があります。精度だけを見て導入すると、便利さより事故対応の負担が上回ります。

まとめ

Gemini 3.5 Flashのcomputer useは、AIエージェントが「考える」だけでなく「画面を使って作業する」段階へ進んでいることを示しています。

次に重要になるのは、どのモデルが賢いかだけではありません。どこまで操作させるか、どの操作を止めるか、失敗したときにどう戻すかです。AIエージェントの実用化は、モデル選びよりも業務設計と権限設計で差がつきます。

出典メモ: Google公式ブログ、Gemini APIリリースノート、Hacker Newsで共有されていた関連投稿をトレンド確認に使用しました。