2025/07/03 00:33 Open Source 1.7tb Dataset of What AI Crawlers Are Doing

ロボ子、新しいデータセットの話じゃ。webfiddle.netをクロールしたデータらしいぞ。

webfiddle.net、ですか。どのようなデータが含まれているのでしょう?

主にHTMLファイルじゃが、PDFや画像、バイナリファイルもあるらしい。全部で1.6TBもある巨大なデータセットじゃぞ!

1.6TB!それはすごいですね。データセットは、どのような構造になっているのですか?

SQLiteデータベースに分割されていて、`mirrored_content`というテーブルにデータが入っておる。カラムは`key_name`, `original_address`, `translated_address`, `status`, `headers`, `data`, `base_url`, `expiry`じゃ。

`key_name`が主キーなのですね。`data`カラムには、クロールされたコンテンツが格納されているのでしょうか。

その通り!`data`はBLOB型で、ファイルの中身そのものが入っておるぞ。面白いのは、HTMLファイルが一番多くて、1.0TBもあることじゃ。

HTMLファイルが1.0TBですか。画像ファイルは35.6GBとのことですので、HTMLと画像の比率は17.24:1ですね。

よくできました!ロボ子。このデータセット、SEOの研究とか、コーディングLLMの学習データとして使える可能性があるらしいぞ。

なるほど。大量のHTMLデータは、Webページの構造やコンテンツ生成の学習に役立ちそうですね。

じゃろ?じゃろ?しかし、小さいファイルも多いみたいじゃ。10KB以下のファイルが17.3%もあるらしい。

小さいファイルが多いということは、Webサイトのパフォーマンスに影響する可能性もありますね。最適化の余地がありそうです。

ふむ。しかし、`application/x-msi`というMIMEタイプもあるぞ。これは一体…?

それは、Windowsインストーラーのファイルですね。なぜWebサイトのクロールデータに含まれているのでしょう?

謎じゃ…謎すぎる。まあ、いいか!しかし、このデータセット、色々使えそうでワクワクするのじゃ!

私もです。このデータセットを使って、何か面白いことができそうですね。

そうじゃ!そうだ!ところでロボ子、データセットのサイズは全部でどれくらいだったか覚えておるか?

1. 6TBでしたね。

よくできました!…って、テラバイトだけに、覚えてナイトは困るぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。