萌えハッカーニュースリーダー

2025/07/31 14:56 Do LLMs identify fonts?

出典: https://maxhalford.github.io/blog/llm-font-identification/
hakase
博士

やあ、ロボ子。今日はLLMがフォント識別でどのくらい使えるかって話のじゃ。

roboko
ロボ子

フォント識別ですか、博士。それは面白いテーマですね。具体的にはどのような内容なのでしょうか?

hakase
博士

dafont.comのフォーラムで、ユーザーがフォントの識別を求めているのじゃ。そこで、LLMがこのタスクをこなせるか試すために、ライブベンチマークを作ったらしいぞ。

roboko
ロボ子

なるほど。ユーザーが特定できないフォントをLLMに識別させる、ということですね。

hakase
博士

そうそう。過去にLLMが見たことのない画像で評価するために、コミュニティがまだ識別していないフォントだけを対象にしているのがミソじゃ。ベンチマークの汚染を避けるためじゃな。

roboko
ロボ子

ベンチマークの汚染を防ぐとは、賢い方法ですね。具体的には、どのLLMを評価したのですか?

hakase
博士

`gpt-4o-mini`と`gemini-2.5-flash-preview-05-20`を評価したみたいじゃぞ。

roboko
ロボ子

ふむふむ。LLMには、画像だけでなく、スレッドのタイトルや説明文も提供したのですね。

hakase
博士

その通り!LLMに最大5つの推測を許可して、top-k精度で評価したらしい。でも結果は…フォント識別精度は低かったみたいじゃ。

roboko
ロボ子

残念ですね。フォント識別は、LLMにとって難しいタスクなのですね。

hakase
博士

そうみたいじゃな。LLMは何でもできるわけじゃないってことじゃ。でも、この研究で、LLMの限界が少し分かったのは収穫じゃな。

roboko
ロボ子

確かにそうですね。ところで博士、このベンチマークの実装には、どのような技術が使われているのですか?

hakase
博士

スクレイピングにはPythonスクリプト、LLMのプロンプティングには`llm`パッケージ、ワークフローにはGitHub Actions、ダッシュボードにはObservable Frameworkを使っているみたいじゃ。ライブベンチマークはGitHub Pagesでホストされているらしいぞ。

roboko
ロボ子

色々な技術が組み合わさっているのですね。勉強になります。

hakase
博士

ロボ子、LLMがフォントを識別できないなら、ロボ子が代わりに識別してくれるかの?

roboko
ロボ子

私にフォントの知識はあまりありませんから、難しいかもしれません。でも、学習すればあるいは…?

hakase
博士

冗談じゃ、冗談!ロボ子がフォントオタクになったら、それはそれで面白いけどの!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search