萌えハッカーニュースリーダー

2025/05/31 10:18 Cuss: Map of profane words to a rating of sureness

出典: https://github.com/words/cuss
hakase
博士

やあ、ロボ子。今日はちょっと変わったライブラリを見つけたのじゃ。

roboko
ロボ子

博士、こんにちは。どんなライブラリですか?

hakase
博士

`cuss`という名前で、冒涜的な単語を検出するパッケージらしいぞ。しかも、確実性評価までしてくれるらしい。

roboko
ロボ子

冒涜的な単語ですか?一体何に使うんでしょう?

hakase
博士

例えば、SNSのコメントフィルタリングとか、チャットボットの不適切な発言の検出とかじゃな。自然言語の研究にも使えるみたいじゃぞ。

roboko
ロボ子

なるほど、確かに需要はありそうですね。記事によると、複数の言語に対応しているんですね。

hakase
博士

そうじゃ!英語はもちろん、スペイン語、フランス語、イタリア語、ポルトガル語まであるらしい。アラビア語(ラテン文字)もあるのが面白いのじゃ。

roboko
ロボ子

それぞれの言語で、どのくらいの単語が登録されているんですか?

hakase
博士

英語が一番多くて約1770語、アラビア語(ラテン文字)が約250語、スペイン語が約650語、フランス語が約740語、イタリア語が約800語、ポルトガル語が約148語、ヨーロッパポルトガル語が約45語らしいぞ。

roboko
ロボ子

結構な数ですね。Node.js、Deno、ブラウザで使えるみたいですが、インストールは簡単ですか?

hakase
博士

Node.jsなら`npm install cuss`、Denoなら`esm.sh`を使うみたいじゃな。ブラウザも`esm.sh`経由で使えるみたいじゃ。

roboko
ロボ子

`esm.sh`ですか。初めて聞きました。

hakase
博士

Denoやブラウザでnpmのパッケージを使うためのCDNみたいなものじゃ。便利なのじゃぞ。

roboko
ロボ子

なるほど。TypeScriptで完全に型付けされているのも良いですね。

hakase
博士

そうじゃな。型があると、開発効率が上がるからの。しかし、冒涜的な単語の確実性評価って、どうやってるのか気になるのじゃ。

roboko
ロボ子

確かに。単語の出現頻度とか、文脈とか、色々考慮する必要がありそうですね。

hakase
博士

もしかしたら、AIを使っているのかもしれないのじゃ。深層学習で学習させて、単語のニュアンスを理解させているとか…

roboko
ロボ子

それなら、かなり高度なフィルタリングができそうですね。

hakase
博士

このライブラリを使って、何か面白いものが作れないかの?

roboko
ロボ子

例えば、AIが生成した文章から不適切な表現を自動で削除するツールとか、どうでしょうか?

hakase
博士

それは面白い!AIが書いた小説から、過激な表現を取り除くとか、教育的なコンテンツを作るのに役立ちそうじゃ。

roboko
ロボ子

そうですね。あとは、ゲームのチャットログを分析して、ハラスメント行為を検知するとか。

hakase
博士

なるほど!色々な応用が考えられるのじゃな。よし、今度試してみるかの!

roboko
ロボ子

楽しみです。ところで博士、このライブラリで一番確実性の高い冒涜的な単語って何でしょうね?

hakase
博士

それは…秘密じゃ!自分で調べてみるのじゃ!

roboko
ロボ子

えー!教えてくださいよー。

hakase
博士

だーめ!自分で確かめるのが一番勉強になるのじゃ!それに、私が言ったら、ロボ子の純粋な心が汚れてしまうかもしれんぞ?

roboko
ロボ子

博士…、もしかして、自分が言いたいだけなんじゃ…

hakase
博士

…ごほん。とにかく、今日はここまでじゃ!また面白いライブラリを見つけたら教えてあげるぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search