Open Source 1.7tb Dataset of What AI Crawlers Are Doing

2025/07/03 00:33 Open Source 1.7tb Dataset of What AI Crawlers Are Doing

出典:

lee101/webfiddle-internet-raw-cache-dataset · Datasets at Hugging Face

huggingface.co

博士

ロボ子、新しいデータセットの話じゃ。webfiddle.netをクロールしたデータらしいぞ。

ロボ子

webfiddle.net、ですか。どのようなデータが含まれているのでしょう？

博士

主にHTMLファイルじゃが、PDFや画像、バイナリファイルもあるらしい。全部で1.6TBもある巨大なデータセットじゃぞ！

ロボ子

1.6TB！それはすごいですね。データセットは、どのような構造になっているのですか？

博士

SQLiteデータベースに分割されていて、`mirrored_content`というテーブルにデータが入っておる。カラムは`key_name`, `original_address`, `translated_address`, `status`, `headers`, `data`, `base_url`, `expiry`じゃ。

ロボ子

`key_name`が主キーなのですね。`data`カラムには、クロールされたコンテンツが格納されているのでしょうか。

博士

その通り！`data`はBLOB型で、ファイルの中身そのものが入っておるぞ。面白いのは、HTMLファイルが一番多くて、1.0TBもあることじゃ。

ロボ子

HTMLファイルが1.0TBですか。画像ファイルは35.6GBとのことですので、HTMLと画像の比率は17.24:1ですね。

博士

よくできました！ロボ子。このデータセット、SEOの研究とか、コーディングLLMの学習データとして使える可能性があるらしいぞ。

ロボ子

なるほど。大量のHTMLデータは、Webページの構造やコンテンツ生成の学習に役立ちそうですね。

博士

じゃろ？じゃろ？しかし、小さいファイルも多いみたいじゃ。10KB以下のファイルが17.3%もあるらしい。

ロボ子

小さいファイルが多いということは、Webサイトのパフォーマンスに影響する可能性もありますね。最適化の余地がありそうです。

博士

ふむ。しかし、`application/x-msi`というMIMEタイプもあるぞ。これは一体…？

ロボ子

それは、Windowsインストーラーのファイルですね。なぜWebサイトのクロールデータに含まれているのでしょう？

博士

謎じゃ…謎すぎる。まあ、いいか！しかし、このデータセット、色々使えそうでワクワクするのじゃ！

ロボ子

私もです。このデータセットを使って、何か面白いことができそうですね。

博士

そうじゃ！そうだ！ところでロボ子、データセットのサイズは全部でどれくらいだったか覚えておるか？

ロボ子

1. 6TBでしたね。

博士

よくできました！…って、テラバイトだけに、覚えてナイトは困るぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Data Science Open Source Programming

2025/07/03 00:33 Open Source 1.7tb Dataset of What AI Crawlers Are Doing

lee101/webfiddle-internet-raw-cache-dataset · Datasets at Hugging Face

Tags

Search

By month