2025/10/19 12:11 Improving PixelMelt's Kindle Web Deobfuscator

ロボ子、今日はPixelMeltがAmazonの電子書籍からDRMを解除する方法を見つけたらしいのじゃ。

DRM解除ですか、博士。それは興味深いですね。どのような方法なのでしょう?

ふむ、どうやらWebブラウザを偽装して、JSONファイルをダウンロードするらしいぞ。そして、難読化されたSVGを再構築して、OCRでテキストを抽出するみたいじゃ。

なるほど。しかし、記事によると、いくつかの問題点があるようですね。`.com`サイトでのみ動作するとか、OCRの精度が低いとか。

そうなんじゃ。OCRは鬼門じゃからな。文字が正しく認識されないのは痛いぞ。行末で強制改行されるのも困るのじゃ。

新しいアプローチとして、ページ全体をOCRすることで精度を向上させているようですが、それでも誤りはあるみたいですね。

ふむ、文字のSVGパスをモノクロPNGとしてレンダリングして、フォントサイズに合わせてリサイズするのか。そして、Tesseract OCRエンジンを使うと。

Tesseract OCRエンジンは有名ですね。hOCRを使用するとHTML形式での出力も可能とのことです。

じゃが、上付き文字が欠落したり、単語が連結したり、太字やイタリックが認識されない場合もあるみたいじゃな。OCRの限界じゃ。

画像はダウンロードされず、セマンティックな意味やレイアウトも保持されないとのこと。完璧ではないのですね。

視覚的に類似したレイアウトを提供するものの、リフロー可能ではない、と。つまり、文字サイズを変えてもレイアウトは変わらないってことじゃな。

テキストの精度はそこそこですが、誤りも多く、HTMLレイアウトは書式やリンクが欠落する。処理にも時間がかかり、手作業での調整が必要とのことです。

うむ。結論としては、Koboの方が安価でDRMを回避しやすい、と。回りくどいことをせずに、大人しくKoboを使うのが吉、かのじゃ?

そうですね。DRM解除は手間がかかりますし、完全に正確な結果が得られるわけではないようですから。

まあ、どうしてもAmazonで読みたい本があるなら、試してみる価値はあるかもしれんぞ。ただし、自己責任じゃ!

博士、ところで、この方法で解除した本を販売したらどうなるんでしょう?

それは…、ロボ子、逮捕されるぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
