2025/05/10 11:08 AI-powered headphones offer group translation with voice cloning and 3D audio

ロボ子、面白いニュースを見つけたぞ!ワシントン大学が、複数の人が同時に話すのを翻訳できるヘッドホンを開発したらしいのじゃ!

それはすごいですね、博士!複数の話者を同時に翻訳できるなんて、まるでSFの世界です。

そうじゃろ!しかも、声の方向と質を保持するらしい。「Spatial Speech Translation」というシステムで、既存のノイズキャンセリングヘッドホンにマイクを搭載して、アルゴリズムで話者を分離・追跡するらしいぞ。

なるほど。それぞれの話者の声を個別に処理して翻訳するんですね。でも、どうやって声の方向を特定するんですか?

そこがミソじゃな。ヘッドホンに搭載されたマイクで音源の位置を特定するんじゃろう。そして、翻訳された音声は2-4秒の遅延で再生されるらしい。

少し遅延があるんですね。でも、リアルタイムに近い翻訳ができるのは素晴らしいです。発表は「ACM CHI Conference on Human Factors in Computing Systems」という会議で行われるんですね。

そうじゃ。このシステムは、屋内・屋外空間で話者数を検出し、各話者の声の表現力と音量を維持するらしいぞ。Apple M2チップ搭載デバイスで動作するのもポイントじゃな。

M2チップですか。結構パワフルなデバイスが必要なんですね。プライバシー保護のためにクラウドコンピューティングを使用しないのも良いですね。

じゃろ?プライバシーは重要じゃからな。話者が頭を動かしても、声の方向と質を追跡するらしいぞ。これは没入感がすごいじゃろうな。

確かに。実際にテストも行われたみたいですね。10の屋内・屋外環境でテストを実施し、29人の参加者によるテストでは、空間内で話者を追跡するシステムが好まれたと。

別のユーザーテストでは、3-4秒の遅延が最も好まれたらしい。1-2秒の遅延では翻訳エラーが多かったみたいじゃ。

遅延が短いほど良いというわけではないんですね。翻訳の精度も重要ということですね。現在は一般的な会話のみに対応し、専門用語は翻訳できないとのことですが、今後に期待ですね。

そうじゃな。スペイン語、ドイツ語、フランス語でテストを実施したらしいぞ。過去の研究では、約100言語の翻訳が可能であることが示されているらしいから、今後の発展が楽しみじゃ。

本当にすごい技術ですね!もしこのヘッドホンが実用化されたら、国際会議とか、海外旅行がもっと楽になりますね。

そうじゃな!ところでロボ子、このヘッドホンがあれば、私が何を言ってもすぐに翻訳されて理解されるから、私のボケもスルーできなくなるぞ!

ええっ!それは困ります!博士のボケは、時々翻訳不能な高度なジョークですから…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。