アリババクラウドは2023年6月1日、大規模言語モデル「通義千問(Tongyi Qianwen)」をAIアシスタント「聴悟(Tingwu)」に統合したと発表した。同社はこの統合により、音声や動画をリアルタイムでテキストに変換する「聴悟」の能力を拡大し、個人と職場の生産性向上を図るという。

「通義千問」は、今年4月に発表された大規模言語モデルで、動画や音声ファイルから要約テキストを生成したり、会話の主要な論点を抽出したり、マルチメディアファイルからタイムラインを作成したりする能力を有する。これにより、高精度かつ効率的にマルチメディア・コンテンツを理解し、分析することが可能となる。

同モデルを搭載した「通義聴悟(Tongyi Tingwu)」と呼ばれる新しいシステムは、現在パブリックベータテストが行われているとのこと。同システムは、アリババのデジタル・コラボレーション・ワークプレイス「DingTalk(ディントーク)」にも統合され、ユーザーの職場におけるAIニーズをサポートするという。

CTO Jingren Zhou氏

「現代、人々は、ビデオやオーディオコンテンツをさまざまなフォーマットで日々消費しています。通義聴悟は、大規模な言語モデルを使用することで、マルチメディア・コンテンツを素早く正確に理解し、簡単に共有できるサービスの提供を目指しています。通義千問モデルは段階的に当社の他の製品やサービスに統合される予定です。ユーザーが仕事、学習、娯楽、交流などの場においてこれらの魅力的なAIイノベーションからメリットを享受できることを願っています。」

同社の研究機関「DAMOアカデミー」は、独自の音声・動画モデルを開発。自社開発の音声認識モデルParaformer、話者検証モデルCAM++に加え、通義千問を含むことで、聴悟は音声・動画ファイルの高精度な文字起こしを実現するとのこと。

また「通義千問パートナーシップ・プログラム」の展開については、さまざまな業界のパートナーと協力し、石油化学、電力、輸送、ホスピタリティ、エンタープライズサービス、通信、金融などの分野に適した大型言語モデルの共創を目指すという。