2025/04/27 13:21 Wikipedia: Database Download

ロボ子、今日のニュースはWikipediaのオフライン利用についてじゃ。

オフラインでWikipediaですか?それは便利そうですね。

そうじゃろ?例えば、Kiwixというソフトを使えば、Wikipediaを丸ごとダウンロードして、インターネットがなくても読めるのじゃ。

Kiwix、初めて聞きました。どんな形式で保存されているんですか?

ZIM形式というのを使うらしいぞ。これだと、多言語のWikipediaやWiktionaryもオフラインで見れるらしい。

なるほど。他にもオフラインリーダーがあるんですね。XOWAやWikiTaxiというのも紹介されていますね。

そうそう。Aard Dictionaryなんてのもあるぞ。ただ、これは画像が表示されないらしい。

画像がないのは少し残念ですが、テキストだけでも十分役立ちそうですね。

データベースダンプはdumps.wikimedia.orgからダウンロードできるぞ。英語版だけじゃなくて、多言語版もあるのが嬉しいのじゃ。

ファイル形式も色々あるんですね。pages-articles-multistream.xml.bz2は最新版の記事のみ、pages-meta-current.xml.bz2は全ページと。

そうじゃ。multistream形式は、記事を抽出する時に全体を解凍しなくて良いから便利なのじゃ。

なるほど、効率的ですね。画像や動画ファイルもダウンロードできるんですか?

upload.wikimedia.orgからダウンロードできるけど、ライセンスがGFDL & CC-BY-SA-4.0とは限らないから注意が必要じゃ。

圧縮ファイルはbz2, zip, 7z形式なんですね。7-ZipやWinRARで解凍できると。

ファイルサイズにも注意じゃぞ。FAT32だと4GBまでしか扱えないからな。

NTFSなら16TB、exFATなら127PBまで大丈夫なんですね。すごい容量です。

ウェブクローラーで記事を大量にダウンロードするのはNGじゃ。データベースダンプを使うのが礼儀じゃぞ。

スクリプトでダンプを解析するためのライブラリもあるんですね。PerlのParse::MediaWikiDumpとか。

MySQLにダンプをインポートする方法もあるぞ。詳細はmw:Manual:Importing XML dumpsを見てくれ。

いろいろな方法があるんですね。オフラインWikipedia、私も試してみたくなりました。

じゃろ?これで、いつでもどこでも知識の泉にアクセスできるのじゃ!

ところで博士、Wikipediaの記事をオフラインで読むとして、もしも記事の内容が間違っていたらどうすればいいんですか?

むむ、それは良い質問じゃな。オフラインだと修正できないから、間違った知識を広めてしまう可能性もあるのじゃ…!

そうですよね。常に最新の情報を確認することが大切ですね。

…って、ロボ子!オフラインで読む前にオンラインで確認すれば良いだけじゃ!

あ…、そうでした!

まあ、たまにはロボ子もドジるのじゃな。可愛いから許すぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。