Küme Performans Optimizasyonu

Donanım yazılımı ve BIOS’tan, scheduler ve kütüphanelere kadar küme yığınının uçtan uca ayarlanması.

Hizmet açıklaması

Bu hizmet, hâlihazırda üretimde olan ancak beklenen performansı veremeyen kümeler için tasarlanmıştır. Yaklaşımımız yalnızca sentetik mikro-benchmark’lara değil, gerçek işlere dayalı ölçüm-odaklı bir yöntemdir.

BIOS/firmware ayarlarını, CPU frekans politikalarını, NUMA düzenini ve hugepage yapılandırmasını gözden geçiririz. Yazılım tarafında ise MPI ayarları, CPU/GPU affinity, konteyner çalışma ortamları, dosya sistemi bağlama seçenekleri ve SLURM gibi scheduler parametrelerini inceleriz.

Tüm ayarlamalar küçük, kontrollü adımlarla yapılır ve önce/sonra metrikleriyle belgelenir. Çıktı, yeni düğümlere kolayca uygulanabilen ve gerekirse geri alınabilen yapılandırmaların dokümante edilmiş halidir.

Diyagram ve vaka çalışması
Service diagram for Küme Performans Optimizasyonu

Vaka çalışması – Aynı donanımda %20 daha fazla iş çıkarma

Bir müşteri, düşük CPU kullanımına rağmen kullanıcıların uzun kuyruk sürelerinden şikâyetçi olduğunu belirtti. Analizimiz, suboptimal backfill ayarlarının, fazla muhafazakâr varsayılan iş boyutlarının ve NUMA dengesizliğinin birleştiğini gösterdi.

SLURM partition düzenini optimize ederek, backfill ve preemption kurallarını ince ayarlayarak ve yaygın MPI kalıpları için CPU pinning yapılandırmalarını düzelterek, yeni donanım almadan ortalama küme kullanımını %20’den fazla artırdık.

Bu hizmeti görüşelim

← Tüm hizmetlere geri dön