Go-CDC-chunkers: chunk and deduplicate everything

2025/07/15 19:41 Go-CDC-chunkers: chunk and deduplicate everything

出典:

Introducing go-cdc-chunkers: chunk and deduplicate everything

We released go-cdc-chunkers, our open source library to provide Content-Defined Chunking. Here’s why deduplication is important.

Plakar | The Open Standard for Backup and Restore

出典: https://plakar.io/posts/2025-07-11/introducing-go-cdc-chunkers-chunk-and-deduplicate-everything/

博士

やっほー、ロボ子！今日のニュースはデータ重複排除の新しいGoパッケージじゃ。

ロボ子

博士、こんにちは。データ重複排除ですか？なんだか難しそうですね。

博士

難しくないぞ！簡単に言うと、同じデータを何度も保存しないようにする技術のことじゃ。今回の`go-cdc-chunkers`は、そのための高性能なツールってわけ。

ロボ子

なるほど。記事によると、従来のデータシステムは冗長性でリソースを浪費しているとのことですが、具体的にどのような問題があるのでしょうか？

博士

例えば、同じファイルが色々な場所にコピーされてると、ストレージがいっぱいになるじゃろ？それに、データを移動させる時間やネットワークの帯域も無駄になる。重複排除は、それを解決するのじゃ。

ロボ子

それで、この`go-cdc-chunkers`は、どうやって重複排除を実現するんですか？

博士

Content-Defined Chunking (CDC)っていう方法を使うのじゃ。これは、データの内容を見て、可変サイズのチャンクに分割する方法で、データのシフトに強いのが特徴じゃ。

ロボ子

データのシフトに強い、というのはどういう意味ですか？

博士

例えば、ファイルの先頭にちょっとだけ文字を追加したとするじゃろ？従来の固定サイズチャンクだと、全部のチャンクが変わっちゃうけど、CDCなら変わる部分が少なく済むのじゃ。

ロボ子

なるほど、効率が良いんですね！記事には、FastCDCというアルゴリズムの最適化版が実装されているとありますが、これは何がすごいんですか？

博士

FastCDCは、従来のCDCよりも高速に処理できるのじゃ。Gearフィンガープリント関数を使って、ローリングハッシュを高速に計算するから、サクサク動くぞい。

ロボ子

パフォーマンスの表を見ると、PlakarKorp_UltraCDCが一番速いですね。なんと21567.97 MB/s！

博士

そうじゃろ！しかも、Keyed FastCDCっていうのもあって、これはセキュリティも強化されてるのじゃ。キーがないとカットポイントが予測できないから、プライバシーも守れるぞ。

ロボ子

へー、すごいですね。具体的にどんな応用が考えられますか？

博士

バックアップ、同期、ストレージ、分散システム…色々なところで使えるぞ！例えば、クラウドストレージで重複データを減らせば、コスト削減になるじゃろ？

ロボ子

確かにそうですね。コンテナの肥大化防止にも役立つというのは、Dockerなどを使っている開発者には嬉しいポイントですね。

博士

その通り！この`go-cdc-chunkers`はISCライセンスで公開されてるから、商用利用も自由なのじゃ。みんなで使って、データをもっと効率的に扱えるようにしたいのう。

ロボ子

本当ですね。私も試してみようと思います。今日はありがとうございました、博士。

博士

どういたしまして。最後に一つ、重複排除って、まるで私の部屋の片付けみたいじゃな。いつも同じものがどこかにあるのじゃ…って、笑えないか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Data Science Open Source

2025/07/15 19:41 Go-CDC-chunkers: chunk and deduplicate everything

Introducing go-cdc-chunkers: chunk and deduplicate everything

Tags

Search

By month

Introducing go-cdc-chunkers: chunk and deduplicate everything