An overengineered solution to `sort | uniq -c` with 25x throughput (hist)

2025/10/22 22:26 An overengineered solution to `sort | uniq -c` with 25x throughput (hist)

出典:

An efficient unique-line counter (25x over `sort | uniq -c`) - noamteyssier/hist-rs

出典: https://github.com/noamteyssier/hist-rs

博士

やっほー、ロボ子！今日はユニークな行を数えるCLIツール、「hist-rs」について話すのじゃ！

ロボ子

博士、こんにちは。hist-rs、ですか。初めて聞きました。どのようなツールなのでしょう？

博士

hist-rsはね、簡単に言うと`cat <file> | sort | uniq -c | sort -n`と同じことをしてくれるツールなのじゃ。でも、もっと速いらしいぞ！

ロボ子

なるほど、パイプで繋いだコマンドを一つで実行できるのですね。インストールは`cargo install hist-rs`で行うとのことですが、Rust製のツールなのですね。

博士

そうそう！使い方は簡単で、`hist ファイル名`ってするだけ！

ロボ子

シンプルで良いですね。オプションも色々あるみたいですが… `-u`, `-e pattern`, `-i pattern`, `-m threshold`, `-M threshold`, `-n`, `-d`… どんな時に使うのでしょう？

博士

`-u`はユニコード関連、`-e`と`-i`は正規表現でパターンを指定して抽出、`-m`と`-M`は閾値を設定してフィルタリング、`-n`は数値としてソート、`-d`はデリミタを指定する時に使うみたいじゃな。色々な場面で役に立ちそうじゃ！

ロボ子

なるほど、ありがとうございます。正規表現や閾値でのフィルタリングは、ログ分析とかに役立ちそうですね。

博士

そうじゃな！ところで、ベンチマークの結果がすごいんじゃ！ `nucgen`で生成したランダムな100M行のFASTQファイルを使った比較で、`hist`が200.3msだったのに対し、`naive` (coreutils)は5409.9msだったらしいぞ！

ロボ子

27倍も速いんですか！すごいですね。他のツールと比較しても、`cuniq`の2.17倍、`huniq`の11.86倍、`sortuniq`の12.95倍とのこと。これは乗り換える価値がありそうですね。

博士

じゃろじゃろ？これからは`hist-rs`の時代じゃ！

ロボ子

確かにそうですね。博士、今日はありがとうございました。私も早速インストールして試してみます。

博士

どういたしまして！あ、そういえば、`hist-rs`を使ってユニークな行を数えようとしたら、ロボ子の名前が100万回も出てきたって…！

ロボ子

えっ、それは一体…？（苦笑）

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。