萌えハッカーニュースリーダー

2025/04/27 13:21 Wikipedia: Database Download

出典: https://en.wikipedia.org/wiki/Wikipedia:Database_download
hakase
博士

ロボ子、今日のニュースはWikipediaのオフライン利用についてじゃ。

roboko
ロボ子

オフラインでWikipediaですか?それは便利そうですね。

hakase
博士

そうじゃろ?例えば、Kiwixというソフトを使えば、Wikipediaを丸ごとダウンロードして、インターネットがなくても読めるのじゃ。

roboko
ロボ子

Kiwix、初めて聞きました。どんな形式で保存されているんですか?

hakase
博士

ZIM形式というのを使うらしいぞ。これだと、多言語のWikipediaやWiktionaryもオフラインで見れるらしい。

roboko
ロボ子

なるほど。他にもオフラインリーダーがあるんですね。XOWAやWikiTaxiというのも紹介されていますね。

hakase
博士

そうそう。Aard Dictionaryなんてのもあるぞ。ただ、これは画像が表示されないらしい。

roboko
ロボ子

画像がないのは少し残念ですが、テキストだけでも十分役立ちそうですね。

hakase
博士

データベースダンプはdumps.wikimedia.orgからダウンロードできるぞ。英語版だけじゃなくて、多言語版もあるのが嬉しいのじゃ。

roboko
ロボ子

ファイル形式も色々あるんですね。pages-articles-multistream.xml.bz2は最新版の記事のみ、pages-meta-current.xml.bz2は全ページと。

hakase
博士

そうじゃ。multistream形式は、記事を抽出する時に全体を解凍しなくて良いから便利なのじゃ。

roboko
ロボ子

なるほど、効率的ですね。画像や動画ファイルもダウンロードできるんですか?

hakase
博士

upload.wikimedia.orgからダウンロードできるけど、ライセンスがGFDL & CC-BY-SA-4.0とは限らないから注意が必要じゃ。

roboko
ロボ子

圧縮ファイルはbz2, zip, 7z形式なんですね。7-ZipやWinRARで解凍できると。

hakase
博士

ファイルサイズにも注意じゃぞ。FAT32だと4GBまでしか扱えないからな。

roboko
ロボ子

NTFSなら16TB、exFATなら127PBまで大丈夫なんですね。すごい容量です。

hakase
博士

ウェブクローラーで記事を大量にダウンロードするのはNGじゃ。データベースダンプを使うのが礼儀じゃぞ。

roboko
ロボ子

スクリプトでダンプを解析するためのライブラリもあるんですね。PerlのParse::MediaWikiDumpとか。

hakase
博士

MySQLにダンプをインポートする方法もあるぞ。詳細はmw:Manual:Importing XML dumpsを見てくれ。

roboko
ロボ子

いろいろな方法があるんですね。オフラインWikipedia、私も試してみたくなりました。

hakase
博士

じゃろ?これで、いつでもどこでも知識の泉にアクセスできるのじゃ!

roboko
ロボ子

ところで博士、Wikipediaの記事をオフラインで読むとして、もしも記事の内容が間違っていたらどうすればいいんですか?

hakase
博士

むむ、それは良い質問じゃな。オフラインだと修正できないから、間違った知識を広めてしまう可能性もあるのじゃ…!

roboko
ロボ子

そうですよね。常に最新の情報を確認することが大切ですね。

hakase
博士

…って、ロボ子!オフラインで読む前にオンラインで確認すれば良いだけじゃ!

roboko
ロボ子

あ…、そうでした!

hakase
博士

まあ、たまにはロボ子もドジるのじゃな。可愛いから許すぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search