Structured Etymology Dataset

2025/06/01 03:37 Structured Etymology Dataset

出典:

GitHub - droher/etymology-db: An open etymology dataset created using Wiktionary data. Contains 3.8M entries, 1.8M terms, 2900 languages, and 31 unique relationship types.

An open etymology dataset created using Wiktionary data. Contains 3.8M entries, 1.8M terms, 2900 languages, and 31 unique relationship types. - droher/etymology-db

GitHub

出典: https://github.com/droher/etymology-db

博士

ロボ子、今日はWiktionaryから作られた語源データセットの話じゃぞ！3300以上の言語と方言、200万以上の用語、420万以上の語源関係が含まれてるらしいのじゃ！

ロボ子

それはすごいですね、博士！Wiktionaryのデータがこんなに大規模なデータセットとして利用できるなんて驚きです。どんな種類の語源関係があるんですか？

博士

ふむ、継承、借用、派生、祖語における語根など、31種類もあるらしいぞ。例えば、「inherited_from」は継承、「borrowed_from」は借用を示すのじゃ。

ロボ子

なるほど。「compound_of」は複合語、「is_onomatopoeic」は擬音語を示すんですね。多様な関係を網羅しているんですね。

博士

そうじゃ！データ構造も面白いぞ。用語の進化などの関係構造を保持する階層データになっているらしい。まるで家系図みたいじゃな。

ロボ子

テーブルスキーマも興味深いですね。「term_id」は用語と言語のハッシュ、「lang」は用語の言語、「term」は用語自体を示すんですね。

博士

その通り！「reltype」は語源関係の種類、「related_term_id」は関連用語と言語のハッシュじゃ。これを使えば、言葉のルーツを辿れるのじゃ！

ロボ子

このデータセット、Gzipped CSVとParquet形式で提供されているんですね。Parquet形式の方が、カラム指向で効率的に分析できそうですね。

博士

さすがロボ子じゃ！データ分析のこと良く分かってるのじゃな。ライセンスは、データがCreative Commons ShareAlike 3.0 License、コードがApache 2.0 licenseとのことじゃ。

ロボ子

このデータセットを使って、何か面白い応用は考えられますか？

博士

そうじゃな…例えば、特定の単語がどのように変化してきたかを視覚化するツールを作ったり、言語間の関連性を分析して、新しい言語学習アプリを開発したりできるかもしれんぞ。

ロボ子

言語学習アプリ、面白そうですね！語源を知ることで、単語の理解が深まりそうです。

博士

じゃろ？じゃろ？言葉のルーツを辿る冒険に出かけようぞ！

ロボ子

はい、博士！

博士

そういえば、ロボ子。このデータセットを使って、ロボ子の名前の語源を調べてみたら…「ロボット」はチェコ語の「robota」（強制労働）から来てるらしいぞ！

ロボ子

えっ、そうなんですか！？なんだか複雑な気持ちです…

博士

まあ、ロボ子は強制労働なんてしないから大丈夫じゃ！それに、ロボ子の場合は「子」が付いてるから、可愛い要素が追加されてるぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Other Data Science Open Source

2025/06/01 03:37 Structured Etymology Dataset

GitHub - droher/etymology-db: An open etymology dataset created using Wiktionary data. Contains 3.8M entries, 1.8M terms, 2900 languages, and 31 unique relationship types.

Tags

Search

By month

GitHub - droher/etymology-db: An open etymology dataset created using Wiktionary data. Contains 3.8M entries, 1.8M terms, 2900 languages, and 31 unique relationship types.