こんにちは、CXデータアナリスト&NLPエンジニアのイケガメです。
皆さんはChatGPT、使ってますか?
私が初めてこの技術に出会ったのは、GPT3と呼ばれていた頃。当時は本当に、衝撃を受けました。
我々エモーションテックは、「顧客の声」の重要性を知っているからこそ、「これは君たちが使いこなすべき技術である・・・」と天啓を受けた気分でした。
そしてその天啓に従い、私たちは生成AIを使った新サービスを開始しました。 その名も、テキストAI分析サービス「TopicScan®︎」。ChatGPTのリリースから数ヶ月後の、スピードリリースです。
* なお、TopicScan®︎では、Microsoft社のセキュリティ基準に準拠したAzure OpenAI Serviceを利用しています。
おかげさまで多くのお客様にその価値を認めてもらえたことで、サービスは好スタートを切ることができました。
が、ここまでの道程は、とんでもなく茨の道だったわけで・・・。
今日は、幾多の壁を乗り越え「お金をもらえるレベルのサービス」に至るまでに学んだいくつかの注意点と、技術的ポイントを紹介します。
我々も学習過程ではありますが、「生成AIを自社のサービスに組み込んで、何か新商品ができないか」と思っている人に、少しでも届いてほしいです。
この記事はエモーションテック Advent Calendar 2023 の8日目の記事です。 (※GPTに書いてもらったわけじゃないよ!自分で書いたよ!)
序
まず前提として、生成AIは働き方を変える、素晴らしいツールです。 企業でも役所でも、「GPT導入しました!」というプレスリリースが絶えません。
それらの多くは、社内のチャットボットだったり、「従業員の相談相手」としての利用だったり。これだけでも、日本の生産性にめちゃくちゃ貢献してくれていると思います。
一方で、生成AIを使って「商用のサービス」を作るとなると、途端にものすごく難しくなります。
これから「ChatGPT使って何か新事業を作りたい」とか、サービス化を考えている人。この苦労をしなくて済むなら、しない方法をまず探してほしいです。
つまり、一度立ち止まって、本当に生成AIを使うべきサービスか、確認してほしいです。すぐに答えられないなら、やめた方がいいでしょう。
なぜか。
生成AIを商用サービスに組み込む時の壁
細かく数えたらキリがないですが、理由は大きく3つあります。
精度が不安定
GPT-4などの一般的に評価が高いLLMでも、精度にはやや波があります。
「昨日まで良くできてたじゃん!今日はどうしたの!」ということが、ザラにあるのです。
(※ここで言う「精度」は、プロンプトの指示を正しく理解し、毎回同じ品質のResponseを返すことを指します)
流行語にもなったChatGPT(GPT3.5-turbo)は、速くて安いのはメリットなのですが、「安定した精度」という点では・・・ 学習パラメータ数が数倍違うと言われるGPT-4に比べると、推論能力や日本語力が低く、厳しいものがあります。
(もちろん、ちょっとした相談相手であれば、全く問題ないですよ)
Responseが遅い
上述した「精度」を担保しようとするなら、GPT-4や、それに追随するモデル(Bison PaLM 2、Anthropic Claude以上)が必須になります。
ただし、GPT-4以降のハイエンドモデルは、基本的にResponseが遅いです。 TPM・RPM(分間のリクエスト上限)の設定によっては、数秒〜数十秒待つことも。
一問一答ならさほど気にならないレベルでも、数百、数千件の処理過程では、 「こりゃ人が見る速度と変わらないのでは、、」という気にもなります。
(まあ、人が見るのと変わらないレベルでできることがすごいんですが)
利用コストが高い
高いです。
が、もちろん、人件費(すなわち、同等のタスクをこなせる人材を採用、教育し、給料を払い続けるコスト)に比べれば、全然安いです。
ただ、どんなLLMも、良いモデルを使おうとするほど、お金がかかります。
安く済ませたいからと言って、ざっくりとした結果をお客様に納品するわけにはいかないので、 背に腹は変えられないですよね。
サービス化を進めるには、これら3点は必ずぶち当たる壁です。
お気づきかもしれませんが、3点とは言いつつも、1つ目の「精度」をどこまで担保する必要があるかで、 それぞれの壁の高さは大きく変わります。
つまり、精度をそこまで求めないなら、速度やコストの問題もなくなります。
でも、当然、品質を下げたら「売れるサービス」にはならない。ジレンマですね。
実は、最も高い壁(高品質)を目指しつつも、速度向上やコスト低下を実現する方法はあります。
これを我々がどのように達成しているか、この場では言えないのですが(ごめんなさい)、 サービス化を目指す上では、ここが一番悩み苦しむ点であることは覚悟してほしいと思います。
*余談ですが、「生成AIを使ったβ版サービスのため、間違った答えを出すことがあります」という免責(?)を見かけることがあります。 が、分析やコンサルティングを生業とする我々からすると、「たまに間違えちゃうかもだけど許してね☆」なんて、口が裂けても言えないセリフです。 (気持ちはわかるけどね)
生成AIをサービスに組み込むための「5つのC」
では、仮にこれらの壁をうまく超える方法が見つかったとして、新しいサービスは成功するでしょうか。
否です。
ここからはビジネス的な要素も絡みますが、サービス内で生成AIを利用するためには、 さらに「5つの条件」を満たしていることが必要になります。
1. Capability - 生成AIが得意なタスクであること
顧客が必要としていて、自社が応えられていない課題は何でしょうか。
それは、「文章生成」「要約」など、生成AIが得意なタスクで解決できることでしょうか。
もし、「計算結果」や「人間の感覚的判断」が重要な変数になるなら、余計な苦労をする前に、別の手段を考えましょう。
2. Cause - 生成AIを使用する理由があること
巷の「生成AIを使っています!」系サービスの中には、「それ生成AI使う意味ある?」というものも混じっています。
外部の生成AIを使わなくても、社内で学習データを用意し、従来の手法を使うことで、 より精度高く、しかもほぼ無料で実現できるタスクもあります。
「生成AI」という流行り言葉で騙してはいけないし、騙されないようにしないといけませんね。
3. Combine - 自社の既存技術と組み合わせられること
個人で使うのが当たり前になりつつある時代に、「普通の使い方」をしているだけでお金を払ってくれる企業は、まずいません。
うまく活用しているサービス・話題になっているサービスは、必ず「得意とする技術」がベースにあった上で、 「生成AIがそれを盤石にする」という形式をとっているはずです。
(我々も、既存のアンケート分析・統計処理の技術基盤を持っているからこそ、うまく扱えています。)
4. Comprehension - 生成AIの挙動を理解すること
生成AIが返すResponseには、「クセ」があります。
簡単な例を挙げると、「3つの箇条書きで要約して」というプロンプトで指示したとき、 GPTは「1点目に出力した箇条書きの文章構造」を、不自然なほどに真似しようとすることがあります。
これは、GPTが「直前までの文章から次の単語を生成する」という性質を持っているからですね。
こんな感じで、なぜそのResponseを返してきたのか、生成AIの性質や内部構造に想像をめぐらせると、 安定的なResponseを返してもらうためのプロンプトを考えることができたりするのです。
5. Cope - 生成AIの不完全さを前提とした対策があること
何度も言いますが、生成AIのResponseは、完全にコントロールするのは難しいです。
今後、GPT-5が出ようが、GPT-10が出ようが、人間がその挙動を完全に把握できない以上、人間にとってResponseが「完璧」になることはないでしょう。
そのため、生成AIからどんなResponseが来ても、完璧に補正する=リカバリーするための方法を用意する必要があります。
逆に、リカバリーの準備をしっかりすれば、不完全でも良いわけです。
以上、ちょっと無理やりですが、5Cにまとめてみました。
これらを最低限満たす必要があると思うと、かなりハードルを感じるのではないでしょうか。
逆に、これらの5Cが満たせる環境や人材・アイデアを持っているのであれば、今すぐサービス化すべきです。 一緒に生成AI市場を盛り上げていきましょう。
おわりに
今回は、生成AIを使ってサービスを作るために「超えるべき壁」と「満たすべき条件」をご紹介しました。
現時点での生成AIは、100%信頼できるものではありません。
しかし、人間の使い方やサポートによって、限りなく100%に近づけることはできると思っています。
また、GPT-4-turboのような新しいモデルでは「同じプロンプトなら常に同じResponseを返す」という機能が追加されるなど、 モデル自体の進化もしています。
諸々ネガティブなことを書き連ねてしまいましたが、百年に一度とも言われるこの大変革期に乗り遅れないためにも、 うまく使いこなせるようになりたいですね。
エモーションテックでは、こうした生成AI・NLPに関する事業を拡大予定です。
この荒波の中で、一緒にサービス作ってみたいなと思っていただけた方は、ぜひ一度オフィスを覗きに来てください。 hrmos.co
また、今後も生成AIサービスに関する記事を執筆していきます。我々の新サービス「TopicScan®︎」がどのように「5C」を満たしたのかについても、近日ご紹介できればと思います。