コールドスタート問題を解決するための事前学習済みAIアルゴリズムの活用

こちらはAlgoliaのEtienne Martinが書いた Using pre-trained AI algorithms to solve the cold start problem の翻訳です。

AIは、最近では”ホットなトピック”から”日常生活”へと急速に移行しているといえるでしょう。今、eコマースを生業としている企業は、AIが自社の競争力を高めることができる場所を明確に認識し始めています。AIがサイトのSearch and Discovery、感情分析、チャットボットなどを促進していくことで、ユーザーはそのお買い物ジャーニーにおいてより良い体験をすることができ、より高いコンバージョンを得るためのエンゲージメントを向上させることができます。

AIはそれ自体が素晴らしい技術的な偉業であることは間違いありませんが、AIシステムは学習させたデータによって初めて効果を発揮するという点に注意する必要があるでしょう。

簡単に言うと、機械学習(Machine Learning)は、マシンがデータから学習し、それによって時間とともに応答を改善することを可能にします。つまり、AIシステムの学習に使用するデータの質と量が、その効果に大きな影響を与えることになります。

例えば、AI検索においては、データが特に重要といえます。AI検索システムは、ユーザーが迅速かつ効率的に求めている情報を見つけるのを支援するように設計されています。これには、AIシステムがパターンを認識し、ユーザーが何を検索している可能性があるかについて正確な予測を行うために使用できる、大規模かつ多様なデータセットが必要になります。

AIの言語アルゴリズムを構築する際に企業が直面する最大の課題の一つとして挙げられるのは、パワフルなAIプラットフォームの開発に必要な時間とリソース、そしてアルゴリズムの効果的な学習に必要な大量のデータです。これによって、コールドスタート問題が発生してしまいます。

ディープラーニングアルゴリズム
ホットスタート

ディープラーニングアルゴリズム

それでは、企業はどのようにしてデータの隔たりを埋めて、AIへの投資から価値を実現できるのでしょうか？現実的な解決策の1つとしては、Pre-Trained(事前に学習済み)なアルゴリズムの利用を検討することが挙げられます。

Pre-Trained(事前学習済み)アルゴリズムは、大規模なデータセットで学習がされていて、他のユーザーがそれを利用できるように提供されてるAIモデルの一種です。このモデルはすでにデータ内のパターンを認識することを学習しているため、大量のデータにアクセスしなくても、高い精度で予測(prediction)を行ったり、新しいデータを分類することができます。

人気のある事前学習済みアルゴリズムとしては、BERT(Bidirectional Encoder Representations from Transformers)やUniversal Sentence Encoderといったものがあります。BERTは、2018年にGoogleがオープンソース化していて、クエリのコンテキストを理解するためにGoogleが使用している、最も広く使われているNLP言語モデルの1つです。BERTは、AlexaやSiriからGoogle翻訳まで、あらゆるもので使用されています。

コールドスタート問題を回避するために、BERTのような事前学習済みアルゴリズムを使用することには、以下のような多くの利点があります：

開発期間の短縮: 事前学習済みの検索アルゴリズムにより、開発者は、時間とリソースを要するモデルをゼロから学習するプロセスを省略することができます。その代わりに、すでに大量のデータで学習された既存のモデルをベースにすることができ、時間と労力を大幅に削減できます。
精度の向上: すでにクリーンアップされた大量のデータによって学習された検索アルゴリズムは、より少ないデータセットで学習されたモデルよりも正確で効果的です。
少ないデータで大丈夫: 学習済みの検索アルゴリズムは、より少ないデータで効果的な検索を行うことができます。この効率性は、データリソースが限られている企業にとって、より実用的なものとなります。事前学習がなければ、AIベースの検索機能を利用するのに時間がかかってしまうでしょう。
柔軟性: 事前に学習された検索アルゴリズムは、特定のドメインに合わせて微調整することができるため、さまざまな種類のデータやアプリケーションに適応することができます。開発者は、独自のデータセットを追加レイヤーとして使って、ユーザーの特定のニーズに合わせて検索体験を高度にカスタマイズできるように設計されています。
より良いユーザー体験: より適切な検索結果を提供することで、事前学習された検索アルゴリズムは、全体的なユーザー体験を向上させます。このようなアルゴリズムにより、企業は、ユーザーのニーズや嗜好が時間とともに変化しても、ユーザーに関連性の高いパーソナライズされた検索体験を提供することが可能です。

今回はBERTとUniversal Sentence Encoderをご紹介しましたが、当然アルゴリズムは他にもたくさんあります。どれを使うべきかは、目の前にあるタスク、つまり構築するソリューション、アルゴリズムと学習に用いられるデータセットの品質、サイズ、性能、および計算リソースなどによって決まってきます。一部のアルゴリズムは非常に大きく、高価なGPUによるコンピューティングを必要とすることがあるでしょう。

ホットスタート

事前に学習された検索アルゴリズムを活用することで、コールドスタート問題を解決し、開発プロセスをスピードアップしてリスクを低減していくことができます。こういったアルゴリズムは、検索モデルの学習に使用可能な多種多様なデータソースにアクセスすることができ、あらゆる業界において時間の経過とともに改善されていきます。こういった事前学習済みのアルゴリズムを活用することで、企業はAI検索を含むAIアプリケーションを迅速に構築する際に、一歩先を行くことができるようになります。事前に学習されたアルゴリズムは開発を加速させ、企業はより魅力的でレレバントな検索体験を顧客に提供でき、最終的にはエンゲージメント、売上、顧客ロイヤルティの向上につながっていきます。

そういったアプリケーションにご興味をお持ちの方は、Algolia NeuralSearchをご覧ください。私たちは、クエリのプロセッシング(NLP/NLU)と検索処理の両方に事前学習されたモデルを活用して、お客様が独自のモデルを構築しなくてもDay1からAI検索を実現できるようにしました。また、ベクトルベースのソリューション特有のコストおよびスケールの問題を克服するために、ベクトルと全文キーワード検索の両方を同時に処理する独自のニューラル・ハッシング・アルゴリズムを設計/開発しました。これによって、開発者は、Webから音声検索まで、あらゆるアプリケーションに自然言語理解(NLU)を用いた検索を導入することができるようになります。

詳細に関しましてはAlgoliaの専門家チームにご連絡くださいませ。