パワーアップしたSiriに留まるか、それとも業界を変化させるのか。大規模言語モデル(LLM:Large Language Models)の潜在的な活用例とその限界について議論します。
ChatGPT、Google社のBard、そしてその他類似したサービスが、今や多くの人の話題の中心となっていることに気づいているはずです。ビル・ゲイツ氏も「AIの時代が始まった」と宣言しているほどです。
マーケティングリサーチ業界におけるこの手のテクノロジーの急進的な活用の可能性を探る前に、そもそも、この大規模言語モデル(LLM:Large Language Models)(以下、LLM)が何か、から始めましょう。簡単に言うと、LLMは、一連の流れの中で次に続く単語やフレーズを予測するように設計されています。また、大規模なデータセットにたくさん接触することで、単語の共起を通じて単語間の統計的関係性を学習することができます。例として、次のようなものがあります:
質問:コーヒーに入れるミルクの種類は、オーツ、アーモンド、ソイ、牛乳のどちらにしますか。
AIの回答:ミルクたっぷりのコーヒーが飲みたくなりました。
ミルクとコーヒーという言葉は、隣り合っていることが多いため、意味的に関連していると判断されます。このような大規模なスケールで行われる関係性の「理解」によって、モデルは一見シュールなまでの成熟度でタスクをこなすことができるため、多くの人がLinkedIn上で驚きを隠せない様子で、業界のディスラプションに関してひっきりなしに大げさな投稿をしています。
しかし、これは本当に言語を理解しているわけではなく、統計的に関連付けをさせているにすぎません。LLMはまだ人間のように知覚を持った存在ではなく、汎用的な人工知能(機械が人間のように知的作業を理解したり学習したりできるように)となる域にはまだ到達していません。
では、マーケティングリサーチ業界では、どのような活用例が考えられるのでしょうか。
マーケティングリサーチ業界でも、エキサイティングで先進的な活用例が数多くあり、その中にはKANTARで既に用いられているものもあれば、積極的に模索中のものもあります。以下、その一部をご紹介します。
- 要約:マーケティングリサーチでは、自由回答、定性インタビュー、フォーカスグループなど、多くの言語データを収集します。LLMにより、回答の要約、順序付け、優先順位付けを行い、調査レポートのストーリーを作成する際の業務を迅速化することができます。
- レポートの自動化:マーケティングリサーチでは、膨大な定量データを扱うため、その整理、要約、提示が必要となります。LLMは、チャート、テーブル、モデル、エグゼクティブサマリーをもとに、その内容を素早く整理し、コメントのドラフトを作成することができます。
- トピック/テーマの特定:さまざまな態度データセットやデジタル・プラットフォームへのオープンAPIを使用して、LLMによりテーマを特定し、センチメント、好意度、ブランドパーセプションを評価し、あとはリサーチャーがそれを基に磨きをかける状態に仕上げることができます。
- 予測: LLMは、機械学習モデルであるエンベディング(埋め込み)を行うことで、ある目的の結果予測に関連するデータを抽出することができます。例えば、テレビ広告のセリフは、そのパフォーマンスを予測するのに役立つのか。あるいは、店員と接した消費者の質的な経験を、ブランドロイヤルティや解約に関連付けるにはどうすればよいか。
- インテリジェントなインタビュー:すでに使用されていますが、今後、会話型AIは急速に普及し、それまでの回答を踏まえて、適切な質問を投げかけるようになるでしょう。また、定量調査においても、従来の調査票設計では、プロセスの自動化と標準化が進むでしょう。
- テキストデータのクリーニング:このような作業は、オペレーションプロセスで大部分を占めますが、LLMにより、オートコレクトよりもはるかに優れた方法で、でたらめな回答やタイプミスをチェックすることができます。
- クリエイティブ・ライティング:ディスカッション・ガイドの作成、プレゼンテーションの初稿、マーケティング・コピー、コンセプト・ステートメントなどのクリエイティブ開発も可能となります。
- 会話型検索クエリ:自然な人間の言葉で質問を投げかけられるデータプラットフォーム上の「人工知能エージェント」を想像してみましょう。このエージェントは、潜在的に巨大なデータベースを「裏」で分析し、自然言語で答えを返します。まさに進化したSiriと言えるでしょう。
LLM活用上のリスクには、どんなものがあるでしょうか。
マーケティングリサーチ業界で既に知られているLLM活用上のリスクは、多くあります。一つは、モデルが物事をでっち上げ、「幻覚を起こす」ようになることです。時系列の観点では、ChatGPTの旧バージョンが2021年までしか更新されていなかったため、間違った答えを出してしまったということがありました。また、LLMは「知識」を持っていないので、(統計的な)信頼度という概念は存在しません。LLMは時間や一時性の概念、あるいは規則に基づいたの数学的概念を持ち合わせていないため、データの解釈は、一般的な相関や関連性によって判別されるものに限られているのが現状です。
加えて、法的・倫理的な問題ももちろん発生します。知的財産を例にとると、これはLLMによるクリエイティブな行為なのか、それとも他人の知的財産を焼き直したものなのか。自分のデータをオープンウェブで共有することは、LLMがそれを使用することを許可することとなるのか。そして最後に、モデルが使用するデータセットの質によっては、「知らぬ」うちに偏見やステレオタイプを容易に促進させてしまう可能性もあります。
KANTARとしての見解 Our conclusion
大規模言語モデルは、マーケティングリサーチ業界にとって計り知れない可能性を秘めています。あるプロセスを加速・強化し、新たな機会を創出する一方で、役割や責任をディスラプトする可能性があります。しかし、マーケティングリサーチやデータを扱う組織では、大規模なプロジェクトに取り掛かる前に、そのリスクに対する自分たちの立場を確認する必要があります。
マーケティングリサーチにおけるLLMの活用例は、次の3つのタイプが予測されます:
- 作業のさらなる効率化:例えば、自由回答のマニュアルコーディングの必要がなくなります。
- より優れた処理:例えば、(一人の人間では無理ですが、)100万件のツイートを処理し、感情を抽出し、解約を予測する能力などが挙げられます。
- 新たな機会の創出:例えば、あるコンセプトの10種類のバージョンを作成するようAIに指示し、別のAIでそれぞれを評価し、最も良いものを選びます。
KANTARでは、過去10年間にわたり、ビジネス全体で言語モデルを使用してきた豊富な歴史があり、より一般的には、機械学習やAIを使用して、広告スクリーニングソリューションのLink AIを含む多くの製品やソリューションを強化しています。Link AIは、人間が評価した25万件以上の広告からのトレーニングデータを用いた強固な基盤を基に設計されています。また、最新の生成AIモデルを使用した新しい活用例のワークストリーム試験を実施し、パートナー企業と共に拡張可能なLLMの機会を模索する等、非常にエキサイティングな時代となりました。
KANTARでは、他にもAIを活用した調査ソリューションをはじめ、ブランディングのサポートをいたします。先ずは、お気軽にお問い合わせください。
言語モデルの簡単な歴史
パラメータとは、モデル内の「動く部品」のことで、パラメータが多いモデルほど複雑で多くのデータを必要とします。しかし、その量はどの程度なのでしょうか。ここ10年の間に指数関数的に変化し、今後も変化していくでしょう。
フェーズ1(2013年頃)― 単語埋め込み(Word Embeddings)が出現。AIは初めて、英語の各単語を数字の集合体として表現できるようになり、これらの数字は「意味」を捉えているようでした。例えば、「king」と「queen」という単語は、AIで類似した埋め込みが与えられ、「bank」という単語への埋め込みとは異なります。初期の単語埋め込みは、3000万から1億程度の比較的控えめな数の「パラメータ」を持つ単純なモデルアーキテクチャに依存していました。これらは、特定のタスクに使用するためにさらなるモデリングとチューニングが必要でしたが、テキスト解析の分野に革命をもたらしました。
フェーズ2 (2014 – 2018) ― 初期の単語埋め込みの問題点は、同じ単語でも文中の他の単語によって異なる意味を持つことがあるにも関わらず、「文脈」を考慮せずに単語を表現していることでした。2018年頃に登場したコンテクスチュアルな埋め込みは、大きな文字列を単語のシークエンスとして処理することができます。これらのモデルは、1億から3億程のより大きな範囲のパラメータを使用します。そして、皆さんが推測されている通り、まだ特定のものへと使用されるには、いくつかの微調整が必要となります。
フェーズ3 ― GPT-4、ChatGPT、Bard、そして今後開発されるものも含めて、現在では大規模なデータセットを用いてトレーニングをした巨大な基盤モデル(Foundation Model )があり、それらは1750億以上のパラメータからできています。これは並大抵のものではありません。これらのモデルはすべて「プラグ&プレイ(接続したら即座に使えるもの)」であり、特定のタスクを実行するための追加トレーニングはほとんど必要ありません。
原文:https://www.kantar.com/inspiration/analytics/what-large-language-models-could-mean-for-market-research?utm_source=linkedin&utm_medium=social
翻訳・編集:高橋なお , Media & Digital
■本件に関するお問い合わせ先
合同会社カンター・ジャパン
PR/マーケティングチーム
E-mail:marketingjapan@kantar.com