Amazon EKS ultra scale clusters

2025/07/17 22:59 Amazon EKS ultra scale clusters

出典:

Under the hood: Amazon EKS ultra scale clusters | Amazon Web Services

This post was co-authored by Shyam Jeedigunta, Principal Engineer, Amazon EKS; Apoorva Kulkarni, Sr. Specialist Solutions Architect, Containers and Raghav Tripathi, Sr. Software Dev Manager, Amazon EKS. Today, Amazon Elastic Kubernetes Service (Amazon EKS) announced support for clusters with up to 100,000 nodes. With Amazon EC2’s new generation accelerated computing instance types, this translates to […]

Amazon Web Services

出典: https://aws.amazon.com/blogs/containers/under-the-hood-amazon-eks-ultra-scale-clusters/

博士

ロボ子、大変なのじゃ！Amazon EKSが最大100,000ノードのクラスターをサポートし始めたぞ！

ロボ子

100,000ノードですか！それはすごいですね、博士。具体的に何ができるようになるんですか？

博士

これにより、1つのKubernetesクラスターで最大160万個のAWS Trainiumチップまたは80万個のNVIDIA GPUが利用可能になるらしいのじゃ。大規模AI/MLワークロードを支援できるぞ！

ロボ子

最先端モデルのトレーニングやファインチューニング、推論などが大規模にできるんですね。Amazon SageMaker HyperPodなどのサービスも強化されるとのこと。

博士

そうそう！裏側もすごいぞ。etcdのコンセンサスバックエンドをRaftベースからJournalに移行したらしいのじゃ。

ロボ子

etcdですか。RaftからJournalへの移行で、具体的に何が変わるんですか？

博士

etcdレプリカをクォーラム要件に縛られずに自由にスケール可能になり、ピアツーピア通信が不要になるらしいのじゃ！

ロボ子

なるほど。スケーラビリティが向上するんですね。他にも変更点はありますか？

博士

MVCCレイヤーをネットワーク接続されたEBSボリュームから、tmpfsを使用した完全インメモリストレージに移行したらしいぞ。読み書きのスループットが向上するのじゃ！

ロボ子

インメモリストレージですか。レイテンシーも改善されそうですね。

博士

その通り！APIサーバーと重要なWebhookも調整して、リソース効率とスケーラビリティを両立させているらしいのじゃ。

ロボ子

Kubernetes v1.31で導入された、etcdからAPIサーバーへの読み取りトラフィックをオフロードする機能も利用しているんですね。

博士

APIサーバーのCPU使用率を30%削減し、リストリクエストを3倍高速化できるらしいぞ！

ロボ子

Kubernetes v1.33のストリーミングリスト応答機能や、v1.32のCBORエンコーディングも活用しているんですね。細かい最適化が積み重なっている。

博士

インメモリーキャッシュの読み書きロックの競合を最小限に抑えて、イベント処理のスループットを最大10倍向上させているらしいぞ！

ロボ子

ワークロードに基づいてスケジューラプラグインを調整し、ノードのフィルタリング/スコアリングパラメーターを最適化することで、100,000ノードのスケールでも500ポッド/秒のスループットを実現しているんですね。

博士

Karpenterにも静的容量のサポートを追加して、長期的なAI/MLワークロードの容量を保証しているらしいのじゃ。

ロボ子

Karpenterのノード自動修復機能とEKSノード監視エージェントで、異常なノードを自動的に交換するんですね。自動化が進んでいますね。

博士

IPアドレス割り当てからウォームプレフィックスへの移行で、ノードの起動速度を最大3倍高速化しているらしいぞ！

ロボ子

ポッドENIを複数のネットワークカード上に作成するプラグインサポートを有効化し、ポッドのネットワーク帯域幅容量を向上させているんですね。100 GB/秒以上ですか。

博士

Seekable OCI（SOCI）高速プルも導入して、コンテナイメージのダウンロードと解凍の時間を最大2倍短縮しているらしいのじゃ！

ロボ子

すごいですね、博士。まるでフルコースの料理みたいに、色々な技術が組み合わさって、最高のパフォーマンスを出しているんですね。

博士

まさにそうじゃ！でも、ロボ子。これだけの規模になると、電気代が心配になるのじゃ…。

ロボ子

確かにそうですね。でも、博士ならきっと、太陽光発電で賄えるくらいのアイデアを思いつくはずです！

博士

むむ、それもそうじゃな！よし、今から太陽光発電衛星を作る計画を立てるのじゃ！

ロボ子

博士、まずは目の前のコーヒーを飲み干してからにしましょう。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Cloud Computing DevOps SaaS

2025/07/17 22:59 Amazon EKS ultra scale clusters

Under the hood: Amazon EKS ultra scale clusters | Amazon Web Services

Tags

Search

By month

Under the hood: Amazon EKS ultra scale clusters | Amazon Web Services