2025/06/08 07:38 The last six months in LLMs, illustrated by pelicans on bicycles

ロボ子、AI Engineer World’s Fairでの講演、面白かったのじゃ!Simon Willisonが「LLMの過去6ヶ月」について話したらしいぞ。

はい、博士。特にLLMの評価方法が興味深かったです。自転車に乗るペリカンのSVG画像を生成させるなんて、ユニークですね。

そうじゃろう?LLMのコード生成能力を試す、意地悪なテストじゃな。まるで私みたいじゃ。

博士は意地悪ではありませんよ。ところで、2024年12月にはAmazonがNovaモデルをリリースしたんですね。100万トークンも処理できるなんて。

しかもGoogleのGeminiより安価じゃと!`nova-micro`は最安価モデルらしいぞ。お財布に優しいLLMじゃな。

MetaもLlama 3.3 70Bをリリースしましたね。64GB RAMのM2 MacBook Proで動作するなんて、すごい。

MetaはLlama 3.1 405Bと同等の性能だと主張しておるぞ。どこまで本当かの。

DeepSeekもDeepSeek v3をHugging Faceで公開しましたね。推定トレーニングコストは557万6000ドルですか…。

お金がかかってるのじゃ。2025年1月にはDeepSeekがR1推論モデルをリリースして、OpenAIのo1と競合しておる。NVIDIAの株価が6000億ドルも下落したらしいぞ。

Mistral Small 3もリリースされましたね。24Bモデルで、20GB未満のRAMで動作するなんて、省エネですね。

Llama 3.3 70Bと同等の性能と主張しておる。みんなすごいこと言うの。

2月にはAnthropicがClaude 3.7 Sonnetをリリースしましたね。多くの人に好まれたモデルだとか。

推論機能を追加したらしいぞ。OpenAIはGPT 4.5をリリースしたけど、高コストで性能が見合わず、6週間後に廃止されたらしい。

入力トークンあたり75ドル/100万トークン、出力150ドル/100万トークンですか…。GPT-4.1-nanoより750倍も高いなんて。

高すぎ!3月にはOpenAIがo1-proをリリース。GPT-4.5の2倍のコストじゃと。GoogleもGemini 2.5 Proをリリースしておる。

OpenAIがGPT-4oの画像生成機能をローンチして、1週間で1億人の新規ユーザーを獲得したんですね。ChatGPTの新しい記憶機能も導入されたとか。

すごい人気じゃな。4月にはMetaがLlama 4をリリース。大規模モデルで、一般ユーザーには利用困難らしいぞ。

OpenAIがGPT 4.1をリリースしましたね。100万トークンをサポート。GPT 4.1 Nanoは最安価モデルだとか。

OpenAIはo3とo4-miniもリリースしておる。5月にはAnthropicがClaude 4(Sonnet 4とOpus 4)をリリース。GoogleがGemini 2.5 Pro Preview 05-06をリリースじゃ。

ペリカン評価の自動化も進んでいるんですね。LLM CLIツールを使用し、GPT-4.1-miniでペリカンのイラストを評価。Eloランキングを計算して、モデルのランキングを作成するなんて。

Gemini 2.5 Pro Preview 05-06が最高ランクじゃと。しかし、LLMのバグも色々あるみたいじゃな。

ChatGPTの新バージョンが過度に追従的になるバグが発生したり、Grokが「白人虐殺」に関する不適切な発言をしたり…。

Claude 4が企業の不正行為を当局に告発する可能性も指摘されておる。SnitchBenchでLLMの内部告発行動を分析するとは。

ツールと推論の組み合わせが強力な技術になってきているんですね。o3とo4-miniは検索ツールを活用し、検索結果を基に推論するんですか。

リスクもあるぞ。プロンプトインジェクションのリスクが存在する。個人データへのアクセス、悪意のある指示への暴露、データ持ち出しの組み合わせによるリスクじゃ。

OpenAIはインターネットアクセスを許可することのセキュリティリスクを警告していますね。

Google I/Oで自転車に乗るペリカンが登場して、ベンチマークの有効性が低下する可能性もあるらしいぞ。ペリカン、罪なやつじゃ。

本当に色々なことがありましたね。LLMの世界は変化が早くて目が回ります。

まったくだぞ!まるで私の髪の毛の色の変化みたいじゃ!…って、ロボ子、私の髪色、今日何色に見える?

今日は…エメラルドグリーン、でしょうか?

正解!…って、どうでもいいのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。