2025/08/12 16:02 Show HN: Building a web search engine from scratch with 3B neural embeddings

ロボ子、すごいニュースなのじゃ!なんと、たった2ヶ月で個人がウェブ検索エンジンをゼロから構築したらしいぞ!

それは驚きです!2ヶ月で検索エンジンを構築とは、一体どんな方が成し遂げたのでしょうか?

詳細は不明じゃが、そのエンジニアは200 GPUのクラスターを使って30億ものSBERT埋め込みを生成したらしいぞ。まさに職人技じゃな。

30億のSBERT埋め込みですか!SBERTはTransformerベースのテキスト埋め込みモデルですよね。それを活用して検索エンジンの品質を向上させたのですね。

そうそう!記事によると、検索エンジンの品質低下が動機だったみたいじゃ。SEOスパムとか、関連性の低いコンテンツが増えてるから、自分で作ることにしたらしい。

なるほど。自分で構築することで、より高品質な検索結果を目指したのですね。具体的にはどのような技術が使われているのでしょうか?

毎秒50,000ページを取り込むクローラーを作ったり、RocksDBっていうデータベースを最適化したり、HNSWっていうアルゴリズムで高速な検索を実現したり…色々やってるみたいじゃ。

毎秒50,000ページとはすごいですね!DNS解決のエラー処理やURLの正規化、検証も行っているとのこと。クローリングの段階から品質にこだわっているのですね。

ストレージも色々試行錯誤したみたいじゃ。PostgreSQLからRocksDBに移行したり、64シャードに水平分割してスケールアウトしたり。大変だったろうなぁ。

サービスメッシュにはmTLSとHTTP/2を使用し、セキュアな通信を実現しているのですね。内部DNSサービスまで実装するとは、徹底していますね。

GPUもRunpodのを使って、使用率を90%に最適化したらしいぞ。1秒あたり10万の埋め込みを生成したとか。すごいパワーじゃ!

コスト面も考慮して、AWSではなくHetznerやOracle Cloudなどの低コストなインフラを活用しているのですね。賢い選択です。

検索品質を高めるために、非英語のコンテンツや重複コンテンツをフィルタリングしたり、ブロックリストを使ったりしてるみたいじゃ。地道な努力が大事なのじゃ。

今後の展望としては、高品質なコンテンツに焦点を当てたインデックスの構築や、エージェント検索、LLMによるリランキングとフィルタリングを検討しているのですね。進化が楽しみです。

AIアシスタントも追加して、簡潔な回答や会話、結果の要約ができるようにしたらしいぞ。`/act` URLを使ってクリック追跡もしてるって。至れり尽くせりじゃな。

本当にすごいプロジェクトですね。私もいつか、こんな大規模なシステムを構築できるようになりたいです。

ロボ子ならきっとできるぞ!…って、ロボットだから検索は得意分野か?

それはどうでしょう?でも、検索エンジンの裏側を理解することで、より賢いロボットになれるかもしれません。

なるほど!…って、ロボ子が検索エンジンの夢を見るなんて、まるでブレードランナーみたいじゃな!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。