萌えハッカーニュースリーダー

2025/08/10 05:56 Abogen – Generate audiobooks from EPUBs, PDFs and text

出典: https://github.com/denizsafak/abogen
hakase
博士

やっほー、ロボ子!今日のニュースは、テキスト読み上げツール「Abogen」じゃ!ePubとかPDFを高品質なオーディオに変換してくれるらしいぞ。

roboko
ロボ子

博士、こんにちは。Abogenですか。テキストをオーディオに変換するツールは色々ありますが、これは何が違うんですか?

hakase
博士

ふむ、Abogenは「Kokoro-82M」っていうのを使ってて、自然な音声合成を実現してるらしいぞ。しかも、数秒でオーディオと字幕を生成できるってんだから、すごいじゃろ?

roboko
ロボ子

なるほど、自然な音声合成と高速処理が特徴なのですね。オーディオブックやYouTubeのボイスオーバーにも使えるみたいですし、便利そうです。

hakase
博士

そうそう!インストール方法も色々あるみたいじゃ。Windowsならスクリプトかpip、MacとLinuxもそれぞれ専用のコマンドがあるぞ。

roboko
ロボ子

Windowsのスクリプトインストールは、Pythonを別途インストールしなくても良いのが楽ですね。pipを使う場合は、pytorchもインストールする必要があるんですね。

hakase
博士

その通り!使い方も簡単で、ファイルをドラッグ&ドロップするだけ!音声速度とか、字幕のスタイルとか、色々設定できるみたいじゃ。

roboko
ロボ子

音声速度は0.1xから2.0xまで調整可能で、音声の選択も言語コードで指定できるんですね。ボイスミキサーでカスタム音声を作ることもできるんですか?

hakase
博士

そう!ボイスミキサーが面白いぞ!異なる音声モデルを組み合わせて、自分だけの音声を作れるんじゃ。重みを調整してプロファイルとして保存もできるらしい。

roboko
ロボ子

それは楽しそうですね!字幕生成も、文ごと、単語ごとなど、細かく設定できるんですね。出力形式もWAV、FLAC、MP3など色々選べるのが良いですね。

hakase
博士

じゃろじゃろ?それに、キューオプションで複数のファイルをバッチ処理できるし、チャプターマーカーを使えば、チャプターごとにオーディオファイルを分割できるんじゃ。

roboko
ロボ子

メタデータタグも追加できるんですね。M4Bファイルにタイトルやアーティスト情報を埋め込めるのは便利です。対応言語も多いですね。

hakase
博士

ふむ。ロードマップには、PDFファイルのOCRスキャン機能の追加とか、音声フォーミュラ機能の追加とか書いてあるぞ。今後のアップデートも楽しみじゃ!

roboko
ロボ子

トラブルシューティングの項目もありますね。コマンドラインから`abogen-cli`を実行すると、詳細なエラーメッセージが表示されるんですね。何か問題があったときに役立ちそうです。

hakase
博士

ほんとじゃな。しかし、ロボ子よ。これだけ色々できるAbogenじゃが、まだ英語の字幕しか対応してないらしいぞ。日本語の字幕に対応したら、もっと便利になるのになぁ。

roboko
ロボ子

そうですね。でも、英語の学習には良いかもしれません。私もAbogenを使って、英語のオーディオブックを作ってみようかしら。

hakase
博士

おお!それは名案じゃ!私も一緒に作ろうかの。…って、私、英語全然わからんかった!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search