2025/07/31 14:56 Do LLMs identify fonts?

やあ、ロボ子。今日はLLMがフォント識別でどのくらい使えるかって話のじゃ。

フォント識別ですか、博士。それは面白いテーマですね。具体的にはどのような内容なのでしょうか?

dafont.comのフォーラムで、ユーザーがフォントの識別を求めているのじゃ。そこで、LLMがこのタスクをこなせるか試すために、ライブベンチマークを作ったらしいぞ。

なるほど。ユーザーが特定できないフォントをLLMに識別させる、ということですね。

そうそう。過去にLLMが見たことのない画像で評価するために、コミュニティがまだ識別していないフォントだけを対象にしているのがミソじゃ。ベンチマークの汚染を避けるためじゃな。

ベンチマークの汚染を防ぐとは、賢い方法ですね。具体的には、どのLLMを評価したのですか?

`gpt-4o-mini`と`gemini-2.5-flash-preview-05-20`を評価したみたいじゃぞ。

ふむふむ。LLMには、画像だけでなく、スレッドのタイトルや説明文も提供したのですね。

その通り!LLMに最大5つの推測を許可して、top-k精度で評価したらしい。でも結果は…フォント識別精度は低かったみたいじゃ。

残念ですね。フォント識別は、LLMにとって難しいタスクなのですね。

そうみたいじゃな。LLMは何でもできるわけじゃないってことじゃ。でも、この研究で、LLMの限界が少し分かったのは収穫じゃな。

確かにそうですね。ところで博士、このベンチマークの実装には、どのような技術が使われているのですか?

スクレイピングにはPythonスクリプト、LLMのプロンプティングには`llm`パッケージ、ワークフローにはGitHub Actions、ダッシュボードにはObservable Frameworkを使っているみたいじゃ。ライブベンチマークはGitHub Pagesでホストされているらしいぞ。

色々な技術が組み合わさっているのですね。勉強になります。

ロボ子、LLMがフォントを識別できないなら、ロボ子が代わりに識別してくれるかの?

私にフォントの知識はあまりありませんから、難しいかもしれません。でも、学習すればあるいは…?

冗談じゃ、冗談!ロボ子がフォントオタクになったら、それはそれで面白いけどの!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
