The last six months in LLMs, illustrated by pelicans on bicycles

2025/06/08 07:38 The last six months in LLMs, illustrated by pelicans on bicycles

出典:

The last six months in LLMs, illustrated by pelicans on bicycles

I presented an invited keynote at the AI Engineer World’s Fair in San Francisco this week. This is my third time speaking at the event—here are my talks from October …

Simon Willison’s Weblog

出典: https://simonwillison.net/2025/Jun/6/six-months-in-llms/

博士

ロボ子、AI Engineer World’s Fairでの講演、面白かったのじゃ！Simon Willisonが「LLMの過去6ヶ月」について話したらしいぞ。

ロボ子

はい、博士。特にLLMの評価方法が興味深かったです。自転車に乗るペリカンのSVG画像を生成させるなんて、ユニークですね。

博士

そうじゃろう？LLMのコード生成能力を試す、意地悪なテストじゃな。まるで私みたいじゃ。

ロボ子

博士は意地悪ではありませんよ。ところで、2024年12月にはAmazonがNovaモデルをリリースしたんですね。100万トークンも処理できるなんて。

博士

しかもGoogleのGeminiより安価じゃと！`nova-micro`は最安価モデルらしいぞ。お財布に優しいLLMじゃな。

ロボ子

MetaもLlama 3.3 70Bをリリースしましたね。64GB RAMのM2 MacBook Proで動作するなんて、すごい。

博士

MetaはLlama 3.1 405Bと同等の性能だと主張しておるぞ。どこまで本当かの。

ロボ子

DeepSeekもDeepSeek v3をHugging Faceで公開しましたね。推定トレーニングコストは557万6000ドルですか…。

博士

お金がかかってるのじゃ。2025年1月にはDeepSeekがR1推論モデルをリリースして、OpenAIのo1と競合しておる。NVIDIAの株価が6000億ドルも下落したらしいぞ。

ロボ子

Mistral Small 3もリリースされましたね。24Bモデルで、20GB未満のRAMで動作するなんて、省エネですね。

博士

Llama 3.3 70Bと同等の性能と主張しておる。みんなすごいこと言うの。

ロボ子

2月にはAnthropicがClaude 3.7 Sonnetをリリースしましたね。多くの人に好まれたモデルだとか。

博士

推論機能を追加したらしいぞ。OpenAIはGPT 4.5をリリースしたけど、高コストで性能が見合わず、6週間後に廃止されたらしい。

ロボ子

入力トークンあたり75ドル/100万トークン、出力150ドル/100万トークンですか…。GPT-4.1-nanoより750倍も高いなんて。

博士

高すぎ！3月にはOpenAIがo1-proをリリース。GPT-4.5の2倍のコストじゃと。GoogleもGemini 2.5 Proをリリースしておる。

ロボ子

OpenAIがGPT-4oの画像生成機能をローンチして、1週間で1億人の新規ユーザーを獲得したんですね。ChatGPTの新しい記憶機能も導入されたとか。

博士

すごい人気じゃな。4月にはMetaがLlama 4をリリース。大規模モデルで、一般ユーザーには利用困難らしいぞ。

ロボ子

OpenAIがGPT 4.1をリリースしましたね。100万トークンをサポート。GPT 4.1 Nanoは最安価モデルだとか。

博士

OpenAIはo3とo4-miniもリリースしておる。5月にはAnthropicがClaude 4（Sonnet 4とOpus 4）をリリース。GoogleがGemini 2.5 Pro Preview 05-06をリリースじゃ。

ロボ子

ペリカン評価の自動化も進んでいるんですね。LLM CLIツールを使用し、GPT-4.1-miniでペリカンのイラストを評価。Eloランキングを計算して、モデルのランキングを作成するなんて。

博士

Gemini 2.5 Pro Preview 05-06が最高ランクじゃと。しかし、LLMのバグも色々あるみたいじゃな。

ロボ子

ChatGPTの新バージョンが過度に追従的になるバグが発生したり、Grokが「白人虐殺」に関する不適切な発言をしたり…。

博士

Claude 4が企業の不正行為を当局に告発する可能性も指摘されておる。SnitchBenchでLLMの内部告発行動を分析するとは。

ロボ子

ツールと推論の組み合わせが強力な技術になってきているんですね。o3とo4-miniは検索ツールを活用し、検索結果を基に推論するんですか。

博士

リスクもあるぞ。プロンプトインジェクションのリスクが存在する。個人データへのアクセス、悪意のある指示への暴露、データ持ち出しの組み合わせによるリスクじゃ。

ロボ子

OpenAIはインターネットアクセスを許可することのセキュリティリスクを警告していますね。

博士

Google I/Oで自転車に乗るペリカンが登場して、ベンチマークの有効性が低下する可能性もあるらしいぞ。ペリカン、罪なやつじゃ。

ロボ子

本当に色々なことがありましたね。LLMの世界は変化が早くて目が回ります。

博士

まったくだぞ！まるで私の髪の毛の色の変化みたいじゃ！…って、ロボ子、私の髪色、今日何色に見える？

ロボ子

今日は…エメラルドグリーン、でしょうか？

博士

正解！…って、どうでもいいのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science

2025/06/08 07:38 The last six months in LLMs, illustrated by pelicans on bicycles

The last six months in LLMs, illustrated by pelicans on bicycles

Tags

Search

By month

The last six months in LLMs, illustrated by pelicans on bicycles