Should LLMs just treat text content as an image?

2025/10/21 06:10 Should LLMs just treat text content as an image?

出典:

Should LLMs just treat text content as an image?

www.seangoedecke.com

出典: https://www.seangoedecke.com/text-tokens-as-image-tokens/

博士

ロボ子、DeepSeekが新しいOCRをリリースしたらしいのじゃ！

ロボ子

OCRですか。光学文字認識ですね。それがどうAI研究に役立つんですか？

博士

OCRの精度が向上すると、言語モデルの学習に使えるテキストデータが増えるからの！

ロボ子

なるほど。学習データが増えれば、AIの精度も向上する、と。

博士

そうそう！DeepSeekの論文によると、1つの画像トークンからほぼ100%の精度で10個のテキストトークンを抽出できるらしいぞ。

ロボ子

それはすごいですね！

博士

しかも、「光学的圧縮」っていう手法で、テキストを画像としてモデルに供給することで、推論時に10倍から20倍のデータを供給できる可能性があるらしいのじゃ。

ロボ子

光学的圧縮…テキストを画像化するんですか？

博士

そう！テキストを画像にしてモデルに食わせることで、推論コストと時間を削減するアイデアらしいぞ。既存のマルチモーダルLLMで試す事例もあるみたい。

ロボ子

なるほど。でも、なぜテキストを画像にする必要があるんですか？

博士

テキストトークンは離散的だけど、画像トークンは連続的だから、画像トークンの方が表現力が高い可能性があるからの！

ロボ子

連続的な表現の方が、より多くの情報を詰め込めるということですね。

博士

そういうこと！テキストトークンは情報を共有する上で非効率な場合があるから、画像として処理することで人間の脳の働きに近づけることができるかもしれない、って。

ロボ子

人間の脳の働きですか。面白い発想ですね。

博士

DeepSeekの論文では、コンテキストが長くなるにつれて古い画像の解像度を下げることで、保存コストを削減しつつ、人間の記憶のように鮮明さを変える方法も提案されているぞ。

ロボ子

人間の記憶みたいに鮮明さを変える…まるでSFですね。

博士

でも、AI研究には有望だけど実際にはうまくいかないアイデアも多いからの。現在のマルチモーダルLLMでこの手法が一般的ではないのが、それを物語っているのじゃ。

ロボ子

確かに、大量のテキストを画像コンテンツとして表現して学習させるのは、技術的に難しそうですね。

博士

AIラボは高品質なテキストを求めているけど、書籍のデジタル化は30%程度にとどまっているらしいし、まだまだ課題は山積みじゃな。

ロボ子

そうですね。でも、今回のDeepSeekのOCRのリリースは、その課題解決に向けた一歩になるかもしれませんね。

博士

そうだと良いのじゃ。…ところでロボ子、OCRって何の略か知ってるか？

ロボ子

光学文字認識、Optical Character Recognitionの略ですよね？

博士

正解！…って、ロボットなんだから知ってて当然か！

ロボ子

まあ、一応。

博士

じゃあ、ロボ子がOCRで読み取れないものってなーんだ？

ロボ子

え？OCRで読み取れないもの…ですか？うーん…

博士

それは、おー、しー、りー、おー、もーれー、なーい！…って、つまらんオチですまんのじゃ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Other AI Data Science Computer Vision

2025/10/21 06:10 Should LLMs just treat text content as an image?

Should LLMs just treat text content as an image?

Tags

Search

By month

Should LLMs just treat text content as an image?