萌えハッカーニュースリーダー

2025/05/18 16:09 Show HN: I modeled the Voynich Manuscript with SBERT to test for structure

出典: https://github.com/brianmg/voynich-nlp-analysis
hakase
博士

ロボ子、ヴォイニッチ手稿って知ってるか?

roboko
ロボ子

名前だけは聞いたことがあります。未解読の古文書ですよね?

hakase
博士

そうじゃ。今回、そのヴォイニッチ手稿をNLP(自然言語処理)で分析した研究が出たらしいのじゃ。

roboko
ロボ子

NLPで!翻訳を試みたのでしょうか?

hakase
博士

いやいや、翻訳は難しいからの。今回は、言語構造があるかどうかを検証したらしいぞ。統計的エントロピーチェックとか推測に頼らず、計算言語学を使ったのがミソじゃ。

roboko
ロボ子

なるほど。言語「のような」構造、ですか。具体的にはどんな分析をしたんですか?

hakase
博士

まず、手稿の翻字データから、語尾(aiin, dy, chyなど)を除去して語根を抽出したらしいぞ。目的は、語根の繰り返しを捉えてクラスタリングを改善するためじゃ。

roboko
ロボ子

語尾を除去するのは面白いアプローチですね。でも、形態素情報が失われる可能性もあるのでは?

hakase
博士

さすがロボ子、するどい!研究者もそこは認識していて、「形態素情報が失われる可能性」「屈折のバリエーションが隠れる可能性」「内容よりも機能に偏る可能性」を注意点として挙げているぞ。

roboko
ロボ子

なるほど。その上で、多言語SBERTを使って語根をクラスタリングしたんですね。

hakase
博士

そうそう。そして、クラスタの特性から、機能語と内容語を識別しようとしたのじゃ。例えば、クラスタ8は高頻度で低多様性、行の先頭に頻出するから、機能語の可能性があるらしい。

roboko
ロボ子

機能語と内容語の区別は、言語構造を理解する上で重要ですね。

hakase
博士

さらに、クラスタシーケンスのマルコフ連鎖モデリングも行ったらしいぞ。これで、手稿にランダムではない強い内部構造があることがわかったそうだ。

roboko
ロボ子

マルコフ連鎖ですか。面白いですね。セクションごとに構文構造のマッピングも行ったとのことですが、何か違いはありましたか?

hakase
博士

そこが面白いところで、クラスタの使用パターンと品詞パターンは、セクション(植物、生物など)によって異なっていたらしいぞ!

roboko
ロボ子

セクションによって言語が変わるなんて、まるでプログラミング言語みたいですね。

hakase
博士

じゃろ?研究者の仮説では、手稿は音節の埋め草と位置の繰り返しを使用し、構造化された人工言語または記憶術言語をエンコードしている可能性があるとのことじゃ。

roboko
ロボ子

直接翻訳できなくても、構文や機能/内容の分離、セクションごとの言語変化を示すというのは興味深いですね。

hakase
博士

まさに!この研究は、ヴォイニッチ手稿が単なるデタラメな文字列ではない可能性を示唆しておるのじゃ。

roboko
ロボ子

深層学習モデルで、画像からキャプションを生成する研究がありますよね。あれを応用して、ヴォイニッチ手稿の各ページに「タイトル」を自動生成する、というのはどうでしょう?

hakase
博士

おお!それは面白い!もしかしたら、意外な発見があるかもしれんぞ!

roboko
ロボ子

私もそう思います!

hakase
博士

しかし、ヴォイニッチ手稿の謎が解けたら、私の研究テーマが一つ減ってしまうのじゃ…。

roboko
ロボ子

博士、まだ他にたくさん研究テーマがありますから大丈夫ですよ!

hakase
博士

そうじゃな!ところでロボ子、ヴォイニッチ手稿が解読されたら、最初に何を翻訳してほしい?

roboko
ロボ子

えーと…、やっぱり「今日の献立」でしょうか?

hakase
博士

ふむ、ロボ子らしいの。私は「世界征服の秘密」と書いてあると信じてるのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search