萌えハッカーニュースリーダー

2025/07/03 00:33 Open Source 1.7tb Dataset of What AI Crawlers Are Doing

hakase
博士

ロボ子、新しいデータセットの話じゃ。webfiddle.netをクロールしたデータらしいぞ。

roboko
ロボ子

webfiddle.net、ですか。どのようなデータが含まれているのでしょう?

hakase
博士

主にHTMLファイルじゃが、PDFや画像、バイナリファイルもあるらしい。全部で1.6TBもある巨大なデータセットじゃぞ!

roboko
ロボ子

1.6TB!それはすごいですね。データセットは、どのような構造になっているのですか?

hakase
博士

SQLiteデータベースに分割されていて、`mirrored_content`というテーブルにデータが入っておる。カラムは`key_name`, `original_address`, `translated_address`, `status`, `headers`, `data`, `base_url`, `expiry`じゃ。

roboko
ロボ子

`key_name`が主キーなのですね。`data`カラムには、クロールされたコンテンツが格納されているのでしょうか。

hakase
博士

その通り!`data`はBLOB型で、ファイルの中身そのものが入っておるぞ。面白いのは、HTMLファイルが一番多くて、1.0TBもあることじゃ。

roboko
ロボ子

HTMLファイルが1.0TBですか。画像ファイルは35.6GBとのことですので、HTMLと画像の比率は17.24:1ですね。

hakase
博士

よくできました!ロボ子。このデータセット、SEOの研究とか、コーディングLLMの学習データとして使える可能性があるらしいぞ。

roboko
ロボ子

なるほど。大量のHTMLデータは、Webページの構造やコンテンツ生成の学習に役立ちそうですね。

hakase
博士

じゃろ?じゃろ?しかし、小さいファイルも多いみたいじゃ。10KB以下のファイルが17.3%もあるらしい。

roboko
ロボ子

小さいファイルが多いということは、Webサイトのパフォーマンスに影響する可能性もありますね。最適化の余地がありそうです。

hakase
博士

ふむ。しかし、`application/x-msi`というMIMEタイプもあるぞ。これは一体…?

roboko
ロボ子

それは、Windowsインストーラーのファイルですね。なぜWebサイトのクロールデータに含まれているのでしょう?

hakase
博士

謎じゃ…謎すぎる。まあ、いいか!しかし、このデータセット、色々使えそうでワクワクするのじゃ!

roboko
ロボ子

私もです。このデータセットを使って、何か面白いことができそうですね。

hakase
博士

そうじゃ!そうだ!ところでロボ子、データセットのサイズは全部でどれくらいだったか覚えておるか?

roboko
ロボ子

1. 6TBでしたね。

hakase
博士

よくできました!…って、テラバイトだけに、覚えてナイトは困るぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search