Küme Performans Optimizasyonu
Donanım yazılımı ve BIOS’tan, scheduler ve kütüphanelere kadar küme yığınının uçtan uca ayarlanması.
Bu hizmet, hâlihazırda üretimde olan ancak beklenen performansı veremeyen kümeler için tasarlanmıştır. Yaklaşımımız yalnızca sentetik mikro-benchmark’lara değil, gerçek işlere dayalı ölçüm-odaklı bir yöntemdir.
BIOS/firmware ayarlarını, CPU frekans politikalarını, NUMA düzenini ve hugepage yapılandırmasını gözden geçiririz. Yazılım tarafında ise MPI ayarları, CPU/GPU affinity, konteyner çalışma ortamları, dosya sistemi bağlama seçenekleri ve SLURM gibi scheduler parametrelerini inceleriz.
Tüm ayarlamalar küçük, kontrollü adımlarla yapılır ve önce/sonra metrikleriyle belgelenir. Çıktı, yeni düğümlere kolayca uygulanabilen ve gerekirse geri alınabilen yapılandırmaların dokümante edilmiş halidir.
Vaka çalışması – Aynı donanımda %20 daha fazla iş çıkarma
Bir müşteri, düşük CPU kullanımına rağmen kullanıcıların uzun kuyruk sürelerinden şikâyetçi olduğunu belirtti. Analizimiz, suboptimal backfill ayarlarının, fazla muhafazakâr varsayılan iş boyutlarının ve NUMA dengesizliğinin birleştiğini gösterdi.
SLURM partition düzenini optimize ederek, backfill ve preemption kurallarını ince ayarlayarak ve yaygın MPI kalıpları için CPU pinning yapılandırmalarını düzelterek, yeni donanım almadan ortalama küme kullanımını %20’den fazla artırdık.