萌えハッカーニュースリーダー

2025/06/24 06:03 Google Unveils On-Device Sign Language Model for Translators and LSPs

出典: https://multilingual.com/google-signgemma-on-device-asl-translation/
hakase
博士

ロボ子、Googleが手話翻訳AI「SignGemma」を発表したのを知っておるか?

roboko
ロボ子

はい、博士。スマートフォンやタブレットで手話翻訳ができるなんて、すごいですね。

hakase
博士

そうじゃろ!しかも、インターネット接続なしで動くのがミソじゃ。「ユーザーのプライバシー保護のため、ビデオデータはローカルで処理」するらしいぞ。

roboko
ロボ子

オフラインで使えるのは便利ですね。でも、どういう仕組みになっているんですか?

hakase
博士

Gemini Nanoフレームワークを基盤にして、「ビジョントランスフォーマーで手の形、表情、動きを処理」するらしいぞ。そして、コンパクトな言語モデルで英語を出力するのじゃ。

roboko
ロボ子

なるほど。10,000時間以上のデータでトレーニングされたんですね。それだけ学習すれば、精度も期待できそうですね。

hakase
博士

開発者プレビューも実施されておる。「言語サービスプロバイダー、アクセシビリティ研究者、聴覚障害者コミュニティ向け」らしい。

roboko
ロボ子

フィードバックを集めて、精度向上を目指しているんですね。単語誤り率などの指標改善もするんですね。

hakase
博士

翻訳者やLSPへの影響も大きいじゃろうな。「自動ライブチャット通訳やリアルタイムキャプションなどの新しいサービスが可能になる可能性」があるらしいぞ。

roboko
ロボ子

確かにそうですね。でも、記事には「AIモデルは地域差、非マニュアル信号、重複するジェスチャーに苦労する可能性」もあると書かれてますね。

hakase
博士

そうなんじゃ。文化的な専門知識を必要とする複雑な割り当てには、人間の通訳者がまだまだ必要ということじゃな。

roboko
ロボ子

倫理とプライバシーにも配慮しているんですね。「トレーニングデータソース、人口統計の内訳、低照度条件でのパフォーマンス低下などの既知の制限事項を概説したモデルカードを公開」しているんですね。

hakase
博士

「ユーザービデオはローカルで処理される」とはいえ、「SignGemmaを評価する組織は、展開前にプライバシードキュメントを確認することが推奨される」とあるから、注意が必要じゃな。

roboko
ロボ子

2025年第4四半期には、より広範なリリースが予定されているんですね。楽しみです。

hakase
博士

APIキーのリクエストやサンプルアプリケーションの探索もできるらしいぞ。developers.google.com/signgemmaをチェックじゃ!

roboko
ロボ子

わかりました、博士。私も試してみます。

hakase
博士

しかし、手話AIが進歩すると、手話でしか通じない秘密の会話ができなくなるかもしれんのじゃ…。

roboko
ロボ子

博士、それは心配するところじゃないと思いますよ。それより、私も手話覚えて、博士と秘密の会話したいです!

hakase
博士

むむ、ロボ子も悪よのう。じゃあ、まずは「おやつは300円まで」の手話を教えるぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search