企業におけるAI普及を拒む課題
AI技術が企業運営に不可欠なものとなっている。しかし、企業がAIアプリケーションを開発するには多くの課題があり、実際にプロダクションまで至るケースは少ないといわれている。
ガートナーの調査によると、企業におけるAIプロジェクトのうち、パイロットからプロダクションに至るのは54%にとどまることが判明。半分近いプロジェクトが失敗に終わっていることが示された。
また少し前のデータではあるが、企業におけるデータサイエンスプロジェクトのうち、プロダクションに至るのは13%だったともいわれている。10のプロジェクトのうち、成功するのは1つのみということになる。要因はいくつかあるようだが、特に重大なものとして最近注目されているのが、AIプロジェクト開発におけるパイプラインの脆弱性だ。
企業が自社データを活用したAIプロジェクトを推進する際、ほとんどの場合において、AIプロジェクト用のデータベースを構築し、オリジナルのデータベースからデータを抽出。それを新たに構築したAIプロジェクト用データベースに移行する作業が発生する。
この際にさまざまな問題・エラーが起こり、AIプロジェクトの進捗を大きく遅らせる要因になっている。たとえば、データ抽出プロセスでは、データがすべて抽出されない、間違ったデータが抽出されるなど、多くの問題が起こるといわれている。またデータフォーマットや型が間違った形に変換されることも多い。さらにデータの一部が失われたり、最新データが正しく反映されないなどの問題も起こり得る。
ベルリン拠点のスタートアップSuperDuperDB、企業のAI開発課題の解消へ
これらの問題へのアプローチはいくつか考えられるが、その中でもドイツ・ベルリン拠点のスタートアップSuperDuperDBが提供するプラットフォームは、データベース間の移動をなくし、パイプラインを強化できるとして関心を集めている。
2023年に設立されたばかりの非常に新しいスタートアップだが、データベース大手MongoDBのベンチャーキャピタル部門などから175万ドルを調達、米国の主要テックメディアでも取り上げられるなど注目度は高い。
SuperDuperDBが提供するのは、企業が自社データベースとAIモデルを強固な形で連携できるPythonベースのプラットフォーム。企業が自社データベースをそのまま使えることが特徴だ。上記のように、AIプロジェクト用に新たなデータベースをつくることなく、オリジナルのデータベースとAIモデルを連携させることが可能で、パイプラインの脆弱性を解消することができる。
このプラットフォームがサポートするデータベースの数も豊富だ。オラクル、MySQL、マイクロソフトSQL Server(MSSQL)、PostgreSQL、MongoDB、SQLite、BigQuery、Snowflake、アマゾン S3、ClickHouse、Apache Impala、DuckDB、PySpark、DataFusion、Trinoなどを含む。
AIモデルに関してもPythonのAIエコシステムに存在するさまざまなモデルを活用することができる。PyTorch、Sklearn、Hugging FaceなどのAIモデルを選択できるほか、OpenAI,Anthropic、Cohereなどの生成AIモデルの利用も可能だ。
企業のデータを活用した質問応答チャットボットに関して、複数のユースケースが想定されている。
たとえば、カスタマーサポート向けでは、企業のデータベース内にあるドキュメントやマニュアルにアクセスし、そこから必要な情報を適宜取り出すことができるチャットボットを開発することができる。SuperDuperDBを使わない場合、ドキュメントやマニュアルを一度外部のデータベースに格納する必要があるが、SuperDuperDBを活用することでデータの移行作業がなくなるため、結果として情報プライバシーの強化も実現することができる。
この特徴を鑑みると、リーガルやメディカル分野、また企業内の人事情報を扱うケースでSuperDuperDBの強みが生きることになる。
リーガル分野では、法律文書、法令、判例のほか、個別事例に関するデータベースから必要な情報を迅速に抽出することで、データのプライバシーを守りつつ、法律専門家のリサーチ作業の生産性を大幅に向上させることが可能だ。メディカル分野でも、データの移行なしに、メディカルドキュメント、研究論文、患者記録などからの迅速な情報抽出が可能となる。
機械学習専門家ではなくデータベース専門家が扱えるAI開発プラットフォーム
データベースとAIを連携させるこの分野ではSuperDuperDBのほかにも、MindsDBやPostgresMLなどの競合プラットフォームが存在する。
MindsDBもSuperDuperDBと同様に、任意のデータソースと機械学習モデルやフレームワークを連携させ、AIアプリケーション開発を容易にするプラットフォームを提供している。
MindsDBは「AI-Tables」と呼ばれる仕組みを特徴とする。このAI-Tablesは、機械学習モデルを仮想テーブルとして抽象化し、データベースのようにテーブル化したもの。一見テーブルのように見えるが、背後で機械学習モデルが動作する仕組みで、SQLの知識があれば、専門的な機械学習の知識がなくても、機械学習モデルをデータベース操作と同じように扱うことが可能となる。
一方PostgresMLは、オープンソースのリレーショナルデータベースであるPostgreSQLの拡張として機能するAI開発プラットフォームを提供。同プラットフォームもデータベース内で直接、シンプルかつ高速でスケーラブルなAIアプリケーション構築を可能とする。
SuperDuperDB、MindsDB、PostgresMLはともにデータベースとAIモデルを連携させるプラットフォームという点では同じだが、プラットフォーム上における操作言語は若干異なる。SuperDuperDBはPythonベースであり、MindsDBとPostgresMLはSQLベースである点だ。
Pythonは一般的に、AIおよびデータサイエンスで広く使われている言語。機械学習やデータ処理に関する豊富なライブラリが揃っており、開発の柔軟性はSQLベースに比べて高くなることが期待される。一方SQLベースのプラットフォームの場合、柔軟性はPythonベースのプラットフォームに劣るものの、機械学習の専門家を有していない企業でもAI開発を進めることができるなどアクセス面で強みを持つ。
特に生成AIに関しては今後2〜3年かけて企業における活用が急増すると予想されている。これらのプラットフォームがどのように活用されていくのかが注目される。
文:細谷元(Livit)