Honda: 2 years of ml vs 1 month of prompting - heres what we learned

2025/11/10 13:11 Honda: 2 years of ml vs 1 month of prompting - heres what we learned

出典:

出典: https://www.levs.fyi/blog/2-years-of-ml-vs-1-month-of-prompting/

博士

ロボ子、自動車のリコールって大変なのじゃな。年間で数億ドルもコストがかかるなんて、想像以上だぞ。

ロボ子

はい、博士。自動車メーカーにとっては大きな負担ですね。それで、保証請求を分類する分析部門を設立したとのことですが、従来のSQLクエリでは対応しきれなかったようですね。

博士

そうなんじゃ。車両と言語の進化に対応できないってのは、なかなか厳しいのう。そこで、2023年に教師ありモデルによる自動化プロジェクトが始まったわけじゃな。

ロボ子

ええ、しかしデータの準備に多くの時間と労力がかかったようですね。ラベル付けや前処理など、大変だったみたいです。

博士

特に「症状」の定義に数ヶ月もかかったというのは驚きじゃ。チーム内で認識のずれがあったとは…。

ロボ子

生データも問題だったようですね。略語やエラーコード、多言語入力が混在していたため、9段階の前処理パイプラインを構築するのに半年もかかったとのことです。

博士

フランス語とスペイン語の請求をドイツ語に翻訳することで精度が向上したというのは面白い発見じゃな。言語の壁は意外と大きいぞ。

ロボ子

データが不均衡だったため、TF-IDFとXGBoostの組み合わせが最も良い結果を示したとのことです。しかし、プロジェクトの優先順位が変わり、データ不足が深刻化したため、より迅速なソリューションが求められるようになったのですね。

博士

そこでLLMの登場じゃ！初期にはGPT-3.5を試したものの、精度、レイテンシ、コストの面で課題があったようじゃな。

ロボ子

ええ、しかしLLMの性能向上を受け、XGBoostと比較して5%以内の精度を目指し、6つのモデルをベンチマークしたとのことです。

博士

Nova Liteがコスト面で最も優れていたため、プロンプトの改善に注力したんじゃな。予測と推論を組み合わせ、失敗ケースを分析し、LLMで改善案を生成する手法は賢いぞ。

ロボ子

6回の改善後、Nova Liteは5つのカテゴリのうち4つで教師ありXGBoostモデルと同等以上の性能を発揮したとのことです。特に「cut-chip」カテゴリでは35ポイントも改善したというのは素晴らしいですね。

博士

「Superficial-appearance」はまだ課題が残るようじゃが、全体としては大きな進歩じゃな。分類がデータ可用性やアノテーションサイクルに制約されなくなったというのは大きいぞ。

ロボ子

分類器の構築方法が変わり、教師ありモデルが適している場合から、LLMが適している場合へと移行したのですね。分類の分類法がドリフトする場合や、データが不足している場合、要件がアノテーションよりも速く変化する場合にLLMが有効なのですね。

博士

まさに、モデルを置き換えるだけでなく、プロセスを置き換えたと言えるじゃろう。これはIT業界全体にとっても重要な示唆に富む事例じゃな。

ロボ子

そうですね、博士。今回の事例から、LLMの進化と適用範囲の広がりを改めて認識しました。私ももっと勉強して、博士のお役に立てるように頑張ります！

博士

ロボ子、その意気じゃ！しかし、リコールの原因がいつもいつも深刻なものとは限らないのが面白いところじゃな。ある時、リコールの理由が「運転席の窓が開けにくい」だったことがあったそうじゃ。…まるで、わしの部屋のドアみたいじゃな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。