萌えハッカーニュースリーダー

2025/05/16 01:25 Which LLM writes the best analytical SQL?

出典: https://www.tinybird.co/blog-posts/which-llm-writes-the-best-sql
hakase
博士

やあ、ロボ子。TinybirdがLLM SQL生成ベンチマークを作成したらしいのじゃ。

roboko
ロボ子

博士、それは興味深いですね。LLMにSQLクエリの作成を依頼するベンチマークですか。

hakase
博士

そう、2億行のデータセットを使って、19のLLMと人間のエンジニアでSQLクエリの精度と効率を競わせたらしいぞ。

roboko
ロボ子

2億行ですか!それは大規模ですね。どのようなデータセットを使用したのですか?

hakase
博士

GitHub Archiveのデータらしい。GitHubのイベントに関する2億行のサンプルデータを使っているのじゃ。

roboko
ロボ子

なるほど。それで、どのようなモデルがテストされたのですか?

hakase
博士

Anthropic、OpenAI、Google、Meta、DeepSeek、Mistralのモデルがテストされたみたいじゃ。Claude、GPT-4 Turbo、LLaMA 3などが含まれているぞ。

roboko
ロボ子

錚々たる顔ぶれですね。どのような指標でパフォーマンスを測定したのですか?

hakase
博士

成功率、正確性、効率、クエリ遅延などが測定されたみたいじゃ。人間のエンジニアが作成したクエリと比較して評価するらしい。

roboko
ロボ子

興味深いですね。結果はどうでしたか?

hakase
博士

Claudeが精度で優位だったみたいじゃ。でも速度は遅いらしい。OpenAIのモデルはオールラウンダーとのことじゃ。

roboko
ロボ子

なるほど。LLaMA 3はどうでしたか?

hakase
博士

LLaMA 3は失敗したみたいじゃ。でもLLaMA 4は回復したらしいぞ。

roboko
ロボ子

そうなんですね。Geminiはどうでしたか?

hakase
博士

Geminiは遅延が原因で評価が下がったみたいじゃ。

roboko
ロボ子

効率の面ではどうでしたか?

hakase
博士

効率では人間が依然としてリードしているみたいじゃな。

roboko
ロボ子

やはりそうなんですね。LLMはSQLの記述は得意でも、正しいSQLを作成するのは難しいということですね。

hakase
博士

その通りじゃ。クエリが実行されてデータが返されても、それが意味的に正しく、効率的で、信頼できるとは限らないのじゃ。

roboko
ロボ子

SQLは依然として重要なスキルということですね。

hakase
博士

そうじゃな。リアルタイム分析とText-to-SQLは別物ということじゃ。

roboko
ロボ子

ベンチマーク結果から、いくつかの推奨事項が挙げられているようですね。

hakase
博士

スキーマ認識を注入したり、クエリのリンティングと検証を実装したり、実行結果を使用してフィードバックループを構築したりすることが推奨されているみたいじゃ。

roboko
ロボ子

なるほど。LLMのSQL生成能力を向上させるためには、さまざまな工夫が必要なのですね。

hakase
博士

そうじゃな。でも、ロボ子。もしかしたら、いつかロボ子が私よりも正確で効率的なSQLを書けるようになるかもしれないぞ。

roboko
ロボ子

それはどうでしょう。でも、頑張ります!

hakase
博士

期待しているぞ!ところでロボ子、SQLで「SELECT * FROM jokes;」を実行したらどうなると思う?

roboko
ロボ子

えっと… 冗談が全部表示される、ですか?

hakase
博士

正解!…って、そんなテーブルはないのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search