INDEX
マイクロソフトBingに画像生成機能が追加
2023年9月以降、マイクロソフト、グーグル、OpenAIとジェネレーティブAI領域で先行するプレイヤーによるツールの機能拡張が加速している。
マイクロソフトは9月21日、検索エンジンBingでOpenAIの画像生成AIであるDALL-E3モデルのサポートを開始するほか、検索とチャットでのよりパーソナライズされた回答の生成、AIが生成した画像に透明のウォーターマークを付ける機能などを導入することを発表した。
今回の発表で特に注目されているのが、OpenAIの最新画像生成AIであるDALL-E3モデルが統合されることが公式に明らかにされたことだ。
同社は今年3月、Bingに画像生成機能を追加したが、DALL-Eのどのモデルを使用しているのかについて、詳細情報を公開してこなかった。今回初めて使用するAIモデルに関する具体的な詳細情報が明らかにされた格好となる。
DALL-E3自体も以前のモデルであるDALL-E2からの大幅な改善が期待されており、画像生成分野で先行するStable DiffusionやMidjourneyにどこまでキャッチアップできるかに注目が集まっている。
OpenAIによると、DALL-E3は現在リサーチプレビュー中であり、今秋からAPIを介してChatGPT PlusとEnterpriseの利用者にも提供される予定という。
前モデルのDALL-E2からの改善点として、DALL-E3は微細かつ詳細なニュアンスを理解できるようになり、ユーザーのプロンプトに対し正確な画像を生成できるようになったことが挙げらる。
実際、OpenAIは「An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula(星雲の爆発として表現された、ダンクするバスケットボール選手のエクスプレッシブな油絵)」というプロンプトをDALL-E2とDALL-E3に入力した結果を公開しているが、詳細な表現においてDALL-E3の改善具合を見て取ることができる。
OpenAIは、他の画像生成システムがしばしばプロンプト内の単語や説明を無視する傾向があり、ユーザーはプロンプトを工夫することに多大な時間を取られると指摘。一方DALL-E3は、ユーザーのプロンプトに忠実に従い、画像を生成する能力を有すると述べている。
DALL-E3はBingのほか、ChatGPT PlusとEnterpriseでも利用でき、同モデルが生成した画像を販売・商品化することも許可なしに可能であるという。
BingやChatGPTでの展開にあたり、前モデル同様にDALL-E3でも、有害コンテンツの生成を抑制する措置を導入しており、暴力的、性的、憎悪的な画像の生成能力は制限される。
このほかBingでは「Content Credentials」と呼ばれる仕組みにより、AIが生成した画像に見えないデジタルウォーターマークを追加する機能が導入された。ウォーターマークには作成日時などの情報が含まれるという。この技術は、the Coalition for Content Provenance and Authenticity (C2PA)が定めた暗号化標準となる。C2PAの参加企業には、ソニー、インテル、アドビなどが含まれる。
マイクロソフトCopilot、WindowsにAI機能統合
マイクロソフトは、9月26日のWindows11のアップデートで、AIアシスタント「Copilot」をWindowsに統合、Bingと同様のAIチャット機能をデスクトップに追加した。このCopilotは、デスクトップのサイドバーに表示され、PCの設定、アプリ起動などが可能になるほか、シンプルなチャットツールとしても利用できる。
このアップデートを機に、近々AIを駆使したさまざまな機能がWindowsの各ツールに導入される予定だ。
たとえば、PaintツールではAIによる画像生成機能「Paint Cocreator」が追加される予定となっている。これは、テキストプロンプトを入力し、スタイルを選択すると、指示に沿った画像を生成する機能。また、Paintでは、背景を取り除く機能やフォトショップのようにレイヤーを追加する機能などが利用できるようになる。
Snipping ToolもAIによるアップグレードが施される。このツールは通常、画像からスクリーンショットを作成する際に利用されているが、AIによるアップグレードで、画像内の文字を抽出し、編集、さらに他のアプリに共有できるようなる。また、画像からEメールアドレスや電話番号を自動で認識、塗りつぶし、非表示にする機能も追加される。
Windows11の写真アプリもAIによる背景をぼかす新機能が追加される。これは、AIが写真の背景を自動的に検出し、被写体を強調するために背景をぼかす機能。ぼかしのレベルを調整したり、ぼかしエリアを変更することも可能という。
マイクロソフトによると、これらの新機能は、まず一部の一般ユーザーに展開され、数カ月後にWindows11の全ユーザーが利用できるようになる。
グーグルの対抗策
マイクロソフトによるWindowsへのAI統合に対抗し、グーグルも同社のチャットボットBardを自社の各種サービスに統合する取り組みを進めている。
グーグルは2023年9月19日、Gmail、Docs、DriveなどとBardチャットボットを接続し、Bardがこれらアプリの情報を検索できるようになったと発表した。
この統合により、Bardを介しGmailやDrive内の情報にアクセスし、検索したり、要約できるようなる。発表時点では、この機能は英語のみに限定されるという。
Bardが個人のメールやドキュメントにアクセスできるようになることで、プライバシー懸念を引き起こすことが想定されるが、この点に関して、グーグルはBardがアクセスする情報は公開AIモデルのトレーニングには使用されず、また人間のレビュー担当者にも表示されないと説明している。利用者には、Bardの統合をいつでも無効にできる選択肢も提供される。
Bardの拡張機能は、Google Maps、YouTube、Google Flightsにも展開される。これにより、Bardでリアルタイムのフライト情報を取得したり、近くの観光スポットを検索したり、特定のトピックに関するYouTube動画を表示したりできるようになる。これら3つの拡張機能は、デフォルトで有効化される。
このほか同アップデートでは、Bardが生成した情報が正しいのかどうかを確認できる「Google it」ボタンも追加されるという。
OpenAIもChatGPTの機能拡張へ
マイクロソフトの各種AIツールの基盤となるAIモデルを提供するOpenAIも自社サービスであるChatGPTの機能拡張を推進中だ。
2023年8月末には、ChatGPTの法人向けバージョンをリリース。一般向けChatGPTよりも高いセキュリティとプライバシー保護を謳い、またフラッグシップモデルであるGPT-4への無制限アクセスや高速化を可能にするバージョンであるという。
この法人向けバージョンでは、一般向けChatGPTのGPT‐4よりも4倍多い文章を扱うことが可能となり、さらには一般向けでは「Code Interpreter」として知られているデータ分析機能もデフォルトで利用できる。
OpenAIによると、ChatGPTがリリースされて以来、法人による利用増加が顕著で、ChatGPTアカウントの法人Eメールアドレスを分析したところ、フォーチュン500社のうち80%の企業が登録していることが分かった。
また直近では、OpenAIは9月末に、有料のChatGPT Plusユーザー向けにプロンプトに画像を挿入する機能と音声でコマンドできる機能の提供を開始すると発表。画像挿入機能では、挿入された画像をChatGPTが分析し、画像に関連した情報を提供できるようになる。OpenAIは、自転車の画像をアップロードし、その自転車のサドル位置を下げる方法をChatGPTに質問する事例を公開している。
この機能に関しては、人物の画像をアップロードし、その人物の情報をChatGPTに調べさせる悪用の懸念が想定されるが、OpenAIは、この機能では人物に関する検索を制限していると説明している。
文:細谷元(Livit)