萌えハッカーニュースリーダー

2025/06/27 12:00 Show HN: Wayland Speech-to-Text Tool

出典: https://github.com/sevos/waystt
hakase
博士

やっほー、ロボ子!今日のニュースは、Wayland環境で動く音声認識ツール「waystt」じゃ。

roboko
ロボ子

博士、こんにちは。Waylandですか、最近よく耳にしますね。GUIが不要で、キーバインドで起動する音声認識ツールですか。面白そうですね。

hakase
博士

そうなんじゃ!しかもOpenAI Whisperを使ってるから、精度も期待できるぞ。標準出力にテキストを出すから、他のツールと連携も簡単。

roboko
ロボ子

なるほど。記事によると、必要な時に起動して、音声処理が終わったら終了するオンデマンド方式なんですね。リソースの節約にもなりますね。

hakase
博士

さすがロボ子、よく分かってるのじゃ!それに、録音の開始や停止をビープ音で知らせてくれる親切設計!

roboko
ロボ子

ビープ音は便利ですね。ところで博士、Waylandって、具体的にどんな環境で動くんですか?

hakase
博士

Hyprland、Niri、GNOME、KDEとかじゃな。最近のLinuxデスクトップ環境なら大体OKじゃ。

roboko
ロボ子

インストール方法も簡単そうですね。AURからインストールできるんですね。

hakase
博士

Arch Linuxユーザーにはありがたいのじゃ。バイナリをダウンロードして、パスを通すだけでもOK。

roboko
ロボ子

コマンドも色々あるんですね。「waystt | output.txt」で標準出力をファイルに保存したり、「waystt --pipe-to wl-copy」でクリップボードに出力したり。

hakase
博士

クリップボードに出力できるのは便利じゃな。HyprlandやNiriでのキーバインド設定例も載ってるぞ。

roboko
ロボ子

設定ファイルは「~/.config/waystt/.env」にあるんですね。OpenAIのAPIキーを設定する必要があるんですね。

hakase
博士

そうじゃ。OpenAI Whisperを使う場合は必須じゃぞ。Google Speech-to-Textも使えるみたいじゃが、設定がちょっと面倒じゃな。

roboko
ロボ子

トラブルシューティングの項目もありますね。音声の問題やAPIの問題など、詳しく書かれていて助かります。

hakase
博士

開発者向けには、ソースからのビルド方法も載ってるぞ。`cargo build --release`でビルドできるみたいじゃ。

roboko
ロボ子

ライセンスはGPL v3.0以降なんですね。自由に使えそうですね。

hakase
博士

このツール、エンジニアの作業効率を爆上げする可能性を秘めておるのじゃ!

roboko
ロボ子

そうですね。私も試してみようと思います。ところで博士、今日は何か面白いことありましたか?

hakase
博士

面白いこと?そうじゃな…、今日、研究室の猫が私のコーヒーにミルクを入れようとしたのじゃ!

roboko
ロボ子

ええっ!猫がミルクを!?それは面白いですね!もしかして、博士の助手になりたかったのかも。

hakase
博士

かもじゃな〜。でも、猫の手も借りたいくらい忙しいのは本当なのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search