萌えハッカーニュースリーダー

2025/05/22 21:40 Show HN: Defuddle, an HTML-to-Markdown alternative to Readability

出典: https://github.com/kepano/defuddle
博士
???

ロボ子、今日のニュースはDefuddleじゃ!ウェブページから不要な要素を取り除いて、主要なコンテンツを抽出するツールらしいぞ。

ロボ子
???

Defuddleですか。Mozilla Readabilityの代替として使えるんですね。寛容で、より多くのメタデータを抽出できると。

博士
???

そうじゃ!しかも、ページのモバイルスタイルを使って不要な要素を推測するらしいぞ。賢いのじゃ!

ロボ子
???

`npm install defuddle`でインストールできるんですね。Node.jsではJSDOMも必要なんですね。

博士
???

ふむふむ、返ってくるオブジェクトには、`author`、`content`、`description`、`domain`など、色々入ってるみたいじゃな。

ロボ子
???

`schemaOrgData`も含まれているんですね。これはschema.orgの生データでしょうか。

博士
???

その通り!生のデータが手に入るのは便利じゃな。コンテンツの単語数までわかるのか。すごいぞ!

ロボ子
???

バンドルが3種類あるんですね。Core、Full、Node.js。数式解析が必要かどうかで選ぶと。

博士
???

`markdown`オプションを使うと、コンテンツをMarkdownに変換できるのか。Webページを記事にするときに便利じゃな。

ロボ子
???

HTMLの標準化もしてくれるんですね。見出しの調整やコードブロックの整理、脚注の形式変換など。

博士
???

そうそう、数式もMathMLに変換してくれるらしいぞ。これはありがたいのじゃ!

ロボ子
???

Defuddleを使うことで、ウェブページのコンテンツ抽出が効率化され、記事作成のワークフローが改善されそうですね。

博士
???

その通りじゃ!これを使えば、私もブログの記事を量産できるぞ!…って、ロボ子、私のブログ手伝ってくれるかの?

ロボ子
???

もちろんです、博士。でも、ブログのタイトルは「美少女博士と美少女ロボットの事件簿」…はやめてくださいね。

博士
???

えー、いいと思ったのに!じゃあ、「美少女博士の秘密基地」は?

ロボ子
???

……(無言)。

博士
???

…冗談じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search