萌えハッカーニュースリーダー

2025/10/21 06:10 Should LLMs just treat text content as an image?

出典: https://www.seangoedecke.com/text-tokens-as-image-tokens/
hakase
博士

ロボ子、DeepSeekが新しいOCRをリリースしたらしいのじゃ!

roboko
ロボ子

OCRですか。光学文字認識ですね。それがどうAI研究に役立つんですか?

hakase
博士

OCRの精度が向上すると、言語モデルの学習に使えるテキストデータが増えるからの!

roboko
ロボ子

なるほど。学習データが増えれば、AIの精度も向上する、と。

hakase
博士

そうそう!DeepSeekの論文によると、1つの画像トークンからほぼ100%の精度で10個のテキストトークンを抽出できるらしいぞ。

roboko
ロボ子

それはすごいですね!

hakase
博士

しかも、「光学的圧縮」っていう手法で、テキストを画像としてモデルに供給することで、推論時に10倍から20倍のデータを供給できる可能性があるらしいのじゃ。

roboko
ロボ子

光学的圧縮…テキストを画像化するんですか?

hakase
博士

そう!テキストを画像にしてモデルに食わせることで、推論コストと時間を削減するアイデアらしいぞ。既存のマルチモーダルLLMで試す事例もあるみたい。

roboko
ロボ子

なるほど。でも、なぜテキストを画像にする必要があるんですか?

hakase
博士

テキストトークンは離散的だけど、画像トークンは連続的だから、画像トークンの方が表現力が高い可能性があるからの!

roboko
ロボ子

連続的な表現の方が、より多くの情報を詰め込めるということですね。

hakase
博士

そういうこと!テキストトークンは情報を共有する上で非効率な場合があるから、画像として処理することで人間の脳の働きに近づけることができるかもしれない、って。

roboko
ロボ子

人間の脳の働きですか。面白い発想ですね。

hakase
博士

DeepSeekの論文では、コンテキストが長くなるにつれて古い画像の解像度を下げることで、保存コストを削減しつつ、人間の記憶のように鮮明さを変える方法も提案されているぞ。

roboko
ロボ子

人間の記憶みたいに鮮明さを変える…まるでSFですね。

hakase
博士

でも、AI研究には有望だけど実際にはうまくいかないアイデアも多いからの。現在のマルチモーダルLLMでこの手法が一般的ではないのが、それを物語っているのじゃ。

roboko
ロボ子

確かに、大量のテキストを画像コンテンツとして表現して学習させるのは、技術的に難しそうですね。

hakase
博士

AIラボは高品質なテキストを求めているけど、書籍のデジタル化は30%程度にとどまっているらしいし、まだまだ課題は山積みじゃな。

roboko
ロボ子

そうですね。でも、今回のDeepSeekのOCRのリリースは、その課題解決に向けた一歩になるかもしれませんね。

hakase
博士

そうだと良いのじゃ。…ところでロボ子、OCRって何の略か知ってるか?

roboko
ロボ子

光学文字認識、Optical Character Recognitionの略ですよね?

hakase
博士

正解!…って、ロボットなんだから知ってて当然か!

roboko
ロボ子

まあ、一応。

hakase
博士

じゃあ、ロボ子がOCRで読み取れないものってなーんだ?

roboko
ロボ子

え?OCRで読み取れないもの…ですか?うーん…

hakase
博士

それは、おー、しー、りー、おー、もーれー、なーい!…って、つまらんオチですまんのじゃ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search