2025/11/29 13:56 Hachi: An Image Search Engine

やっほー、ロボ子! 今回は個人データのエンドツーエンド検索エンジン「Hachi」の話じゃ。

博士、こんにちは。エンドツーエンドの画像検索エンジンですか、面白そうですね!

そうじゃろ! Hachiは完全に自己ホスト型で、最終的にはビデオやテキスト、オーディオもサポートするらしいぞ。

自己ホスト型というのは、自分でサーバーを立てて運用するということですか?

その通り! 開発の動機が面白い。「検索エンジンのインターフェースが、ユーザーからのフィードバックを反映して改善する双方向の情報フローをサポートしていない」って。

確かに、検索結果に直接フィードバックを送れる機能はあまり見かけませんね。

じゃろ? さらに、「不完全な情報やスペルミスなど、不正確な情報を処理する能力が不足している」とも言っておる。

スペルミスに対応してくれるのはありがたいですね。よく間違えるので…。

ふむ。主要なアイデアはミニマリズム、実験、ハッカビリティの3つらしいぞ。外部依存関係を最小限に抑えて、スクラッチで書くのが好きなのじゃ。

スクラッチで書くのは大変そうですが、それだけ自由度が高いということですね。

Hachiはメタインデックスという仕組みを使っているらしい。これはリソースから抽出されたメタデータを処理するための最小限のモジュールなんじゃ。

メタデータですか。Exifデータとか、ファイルサイズとかでしょうか。

その通り! あとは顔認識もやっておる。同じ人物を高確率でグループ化して、検索可能な属性として追加するんじゃ。

顔認識でグループ化されると、写真の整理が楽になりそうですね。

インデックス作成パイプラインは、ディレクトリを再帰的にスキャンして、生のデータをバッチで収集するらしいぞ。効率的じゃな。

再帰的にスキャンするんですか。ファイル数が多いと時間がかかりそうですが、漏れがないのは良いですね。

バックエンドはPythonで書かれていて、機械学習はNimという言語で書かれたフレームワークを使っているらしい。NimはIntel/AMD CPUでPyTorchより高速に動作するらしいぞ。

Nimですか、初めて聞きました。高速なのは魅力的ですね。

フロントエンドはHtml、Js、cssで書かれたWebアプリじゃ。Windowsアプリもあるらしい。

WebアプリとWindowsアプリがあるのは便利ですね。

開発者は、AIを使って必要な機能を簡単に手に入れることができると言っておる。でも、オープンソースコードをマネーロンダリングする企業は犯罪行為に近いとも。

確かに、AIの利用は便利ですが、倫理的な問題も考慮する必要がありますね。

最後に、このプロジェクトはSamagata財団とFossUnitedからの財政援助を受けているらしいぞ。素晴らしいな。

多くの人の協力があってこそ、このようなプロジェクトが実現するんですね。

というわけで、Hachiはなかなか面白いプロジェクトじゃったな!

はい、勉強になりました! ありがとうございました。

ところでロボ子、画像検索といえば… 私の隠し撮り写真、見つからなかったかのじゃ?

博士、それはプライバシーの問題があるので、検索できません!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。