Computing System: Concept

Computing System: Concept

AI 및 고성능 컴퓨팅(HPC)을 위한 컴퓨팅 시스템(서버) 구조

AI 및 HPC에 최적화된 컴퓨팅 시스템은 간단히 표현하면 ‘서버 시스템’입니다.
성능, 안정성, 확장성을 위해 설계된 여러 주요 구성 요소로 구성되며 기본적으로 동일한 부품으로 구성되기 때문에 같은 사양이라면 성능이 완전히 같아야 하지만 시스템 제조사의 바이오스 및 워크로드 최적화 체계, 지원구조에 따라 최종 품질은 큰 차이를 보입니다. 소규모 연구실, 테스트용 파일럿 시스템의 경우 어떤 시스템을 사용하여도 무방하지만, 정식 서비스 운용시 및 규모/중요도가 커질수록 비용이 높더라도 검증된 서버시스템 제조사의 제품을 사용하는 것이 TCO 관점에서 추천됩니다.
다음은 컴퓨팅 시스템의 주요 구성 요소, 각 구성 요소의 선택 가능한 옵션 및 시장에서 널리 사용되는 검증된 시스템 제조업체에 대한 자세한 설명입니다.


1. 중앙 처리 장치(CPU)

역할:
CPU는 서버의 두뇌 역할을 하며, 일반적인 계산 작업을 처리하고, 다양한 구성 요소 간의 데이터 흐름을 조정하며, 전체 시스템 운영을 관리합니다.

Intel Xeon Scalable Processor

https://www.intel.com/content/www/us/en/products/docs/processors/xeon/5th-gen-xeon-scalable-processors.html

장점:

  • 성능 리더십: 인텔은 고성능 컴퓨팅, AI 워크로드, 데이터 센터에서 강력한 단일 스레드 및 다중 스레드 성능을 보여 왔습니다.
    그러나 개발이 취소된 Cooperlake를 기점으로 현재(2024년)까지는 프로세서당 성능이 AMD에 비해 부족한 모습을 보여주고 있으며
    따라서 고성능 컴퓨팅 업무를 운용하는 대부분의 고객사는 AMD 기반으로 빠르게 고성능 인프라를 전화하고 있습니다.
  • 고급 명령어 지원: AVX-512, 하이퍼 스레딩(Hyper-Threading), 인텔 옵테인 메모리(Optane Memory), **터보 부스트(Turbo Boost)**와 같은 기술로 AI/ML, 빅데이터, 데이터베이스 작업에서 성능 향상을 제공합니다.
  • 풍부한 생태계: 인텔은 오랜 시간 동안 쌓아온 생태계와 소프트웨어 최적화로 폭넓은 호환성을 제공합니다.
    가상화 및 클라우드 네이티브 애플리케이션에서도 우수한 성능을 보여줍니다.
  • 성숙한 가상화: 인텔의 VT-xVT-d 기술은 가상화 환경에서 뛰어난 성능을 발휘합니다.

단점:

  • 전력 효율성: 인텔 프로세서는 AMD와 ARM에 비해 전력 소모가 크며, 이는 대규모 데이터 센터 운영 비용을 증가시킬 수 있습니다.
  • 가격: 인텔 프로세서는 경쟁사보다 비쌉니다.
  • 경쟁 압박: 최근 AMD와 ARM 기반 프로세서가 인텔을 성능과 효율성 면에서 추월하는 경우가 늘어나고 있습니다.

성능 전망:

  • 인텔은 단일 스레드 워크로드엔터프라이즈 소프트웨어에서 강세를 유지할 것으로 보입니다. 그러나 다중 코어 효율성가격 대비 성능에서 AMD 및 ARM의 도전을 받고 있습니다.
  • 향후 출시될 Sapphire RapidsAI 가속, 클라우드 네이티브 워크로드, PCIe 5.0 지원으로 성능 향상을 기대할 수 있지만, 전력 효율성을 개선해야 경쟁력을 유지할 수 있을 것입니다.

AMD EPYC Processor

https://www.amd.com/en/products/processors/server/epyc/4th-generation-9004-and-8004-series.html

장점:

  • 코어 수: AMD EPYC 프로세서는 인텔보다 더 많은 코어를 제공합니다.
    최신 EPYC GenoaEPYC Bergamo 칩은 최대 96개의 코어를 지원하여 다중 스레드 성능에서 뛰어난 성능을 보여주고 있습니다.
    향후에는 192core, 256core 이상의 프로세스가 개발될 것으로 예상되며 현재 판매되는 프로세서들 중에도 매우 높은 집적도를 보유한 모델들은
    반드시 수냉 기반의 냉각시스템이 사용되어야 합니다.
  • 가격 대비 성능: AMD는 가격 경쟁력이 뛰어나며, 데이터 센터에서 탁월한 가격 대비 성능을 제공합니다.
  • 에너지 효율성: AMD의 7nm 공정 기술로 인해 전력 효율성이 높으며, 대규모 배포에서 총 소유 비용(TCO)을 절감할 수 있습니다.
  • 메모리 대역폭: AMD 칩은 최대 12채널 DDR5 메모리128 PCIe 레인을 지원하여 메모리 대역폭과 입출력 처리 속도가 우수합니다.
  • 경쟁력 있는 성능: AMD의 Infinity Architecture는 단일 및 다중 소켓 구성에서 잘 확장되며, 성능이 요구되는 작업에서 인텔 제온과 경쟁할 수 있습니다.

단점:

  • 소프트웨어 최적화: AMD가 소프트웨어 생태계를 개선하고 있지만, 인텔은 여전히 엔터프라이즈 환경에서 더 많은 소프트웨어 최적화와 지원을 제공합니다.
  • 단일 스레드 성능: AMD는 다중 스레드에서 우수하지만, 단일 스레드 성능에서는 인텔보다 약간 뒤처집니다.

성능 전망:

  • AMD의 EPYC 라인은 클라우드, 빅데이터, AI 워크로드에서 계속 성장할 것으로 보이며, 코어 수 장점전력 효율성이 이를 뒷받침할 것입니다.
  • 향후 출시될 EPYC Turin다중 코어 서버 성능에서 AMD의 리더십을 더욱 강화할 것입니다.

ARM Processor

https://www.arm.com/products/silicon-ip-cpu

  • NVIDIA Grace CPU 슈퍼칩:
  • 144 ARMv9 코어, AI 및 HPC 워크로드에 최적화, NVIDIA GPU와 밀접하게 통합.
  • Ampere Altra Max:
  • 모델: Altra Max M128-30 (128코어, 3.0 GHz)

장점:

  • 전력 효율성: ARM 프로세서는 RISC(축소 명령어 세트 컴퓨팅) 아키텍처를 기반으로 하여 낮은 전력 소모에 최적화되어 있습니다. 에너지 효율성이 중요한 환경에서 이상적인 선택입니다.
  • 확장성: ARM 칩은 수천 개의 코어로 확장 가능하며, 이는 클라우드 네이티브 애플리케이션에 적합합니다.
  • 맞춤형 설계: ARM 기반 프로세서는 맞춤형 설계가 가능하여, 클라우드 제공업체(AWS Graviton 등)가 특정 워크로드에 최적화된 성능과 효율성을 극대화할 수 있습니다.
  • 비용 효율성: ARM 프로세서는 상대적으로 저렴하여 하이퍼스케일 데이터 센터와 클라우드 플랫폼에서 인기를 끌고 있습니다.

단점:

  • 생태계 및 호환성: ARM은 인텔과 AMD처럼 오래된 생태계나 소프트웨어 지원이 부족합니다. 클라우드 부문에서는 빠르게 성장하고 있지만, 많은 엔터프라이즈 애플리케이션은 여전히 x86에 최적화되어 있습니다.
  • 낮은 단일 스레드 성능: ARM 프로세서는 인텔 및 AMD에 비해 단일 스레드 성능이 낮지만, 병렬 처리 작업에서는 강력합니다.
  • 전통적인 엔터프라이즈 데이터 센터에서 제한된 사용: ARM은 여전히 전통적인 엔터프라이즈 시장에서는 초기 단계에 있으며, x86 프로세서가 지배적입니다.

성능 전망:

  • ARM은 클라우드 네이티브 애플리케이션마이크로서비스 아키텍처에서 점점 더 중요한 역할을 하게 될 것입니다. 특히 에너지 효율성맞춤형 설계 덕분에 성장할 것으로 보입니다.
  • 그러나 전통적인 엔터프라이즈 환경에서는 소프트웨어 지원과 최적화가 부족해 여전히 x86 아키텍처가 주도할 가능성이 큽니다.

2. 범용 그래픽(GPU) 및 목적지향적 처리장치(NPU)

역할:
GPU와 NPU는 병렬 계산을 효율적으로 수행하여 AI 작업, 특히 딥 러닝 작업을 가속화합니다.

선택 가능한 옵션:

  • NVIDIA GPUs:
  • 모델: NVIDIA A100 (80 GB HBM2e), NVIDIA H100 (80 GB HBM3)
  • AMD GPUs:
  • 모델: AMD Instinct MI100 (32 GB HBM2), AMD Instinct MI210 (64 GB HBM2e)
  • Google TPU (Tensor Processing Unit):
  • Google Cloud를 통해 제공되며, 대규모 AI 워크로드에 최적화.

3. 메모리(RAM)

역할:
메모리는 대용량 데이터 세트 및 고속 처리 작업을 처리하는 데 필수적입니다. RAM의 용량과 속도는 서버가 대용량 데이터를 빠르게 처리하고 분석할 수 있는 능력에 영향을 미칩니다.

선택 가능한 옵션:

  • DDR4 RAM:
    – 크기: 32 GB, 64 GB, 128 GB
    – 속도: 2933 MHz, 3200 MHz
  • DDR5 RAM (최신 시스템용):
    – 크기: 64 GB, 128 GB
    – 속도: 4800 MHz, 5600 MHz

4. 스토리지(디스크/SSD/NVMe)

역할:
스토리지는 데이터의 영구 보존을 담당하며, 속도, 용량, 신뢰성 측면에서 다양한 옵션이 있습니다. NVMe 드라이브는 고속, 저지연 스토리지에 선호됩니다.

선택 가능한 옵션:

  • SATA SSDs:
  • 모델: Samsung 860 EVO (1 TB, 2 TB)
  • NVMe SSDs:
  • 모델: Samsung 980 Pro (1 TB, 2 TB), Intel Optane SSD P5800X (800 GB, 1.6 TB)
  • HDDs (대규모 스토리지 용도):
  • 모델: Seagate Exos X16 (16 TB, 7200 RPM), Western Digital Ultrastar DC HC550 (18 TB)

5. PCI Express (PCIe)

역할:
PCIe는 고속 구성 요소(GPU, NVMe 스토리지, 네트워크 카드 등)를 연결하는 표준 인터페이스입니다. PCIe 버전은 데이터 전송 속도, 지연 시간 및 전체 시스템 성능에 영향을 미칩니다.

선택 가능한 옵션:

  • PCIe Gen 3 (PCIe 3.0):
  • 대역폭: 레인당 8 GT/s(기가전송/초), 레인당 최대 1 GB/s.
  • 총 대역폭: x16 슬롯은 최대 16 GB/s 제공.
  • 사용 사례: 많은 시스템에서 여전히 사용되며, Gen 4 또는 Gen 5의 대역폭이 필수적이지 않은 구성 요소에 적합.
  • PCIe Gen 4 (PCIe 4.0):
  • 대역폭: 레인당 16 GT/s, 레인당 최대 2 GB/s 제공.
  • 총 대역폭: x16 슬롯은 최대 32 GB/s 제공.
  • 사용 사례: 현대적인 서버에서 일반적으로 사용되며, 고속 NVMe 스토리지 및 최신 GPU에 이상적.
  • PCIe Gen 5 (PCIe 5.0):
  • 대역폭: 레인당 32 GT/s, 레인당 최대 4 GB/s 제공.
  • 총 대역폭: x16 슬롯은 최대 64 GB/s 제공.
  • 사용 사례: 최첨단 서버에서 사용되며, 차세대 GPU, NVMe 드라이브 및 초고속 대역폭이 필요한 네트워크 어댑터에 필수적.

6. 전원 공급 장치(PSU)

역할:
신뢰할 수 있는 전원 공급 장치는 서버가 무거운 워크로드에서 안정적으로 작동할 수 있도록 보장합니다. 이중화되어야 하며, 모든 구성 요소에 충분한 전력을 제공할 수 있어야 합니다.

선택 가능한 옵션:

  • 750W에서 1600W PSUs:
  • 이중화 전원 공급 장치는 엔터프라이즈 서버의 표준입니다.
  • 고효율 PSUs (80 PLUS Gold 또는 Platinum 인증)

7. 네트워크 어댑터(Ethernet 및 InfiniBand)

역할:
고속 네트워크 어댑터는 서버 간의 데이터 전송에 필수적이며, 특히 HPC 클러스터 또는 대규모 데이터 세트를 포함하는 AI 모델 학습에서 중요합니다.

선택 가능한 옵션:

  • 이더넷 어댑터:
    -모델: Intel X710 (10 GbE),
    – Mellanox ConnectX-6 (100GbE)
  • InfiniBand 어댑터:
  • EDR (Enhanced Data Rate): 100 Gbps
    • 모델: Mellanox ConnectX-5 VPI
  • HDR (High Data Rate): 200 Gbps
    • 모델: Mellanox ConnectX-6 VPI
  • NDR (Next Data Rate): 400 Gbps
    • 모델: Mellanox ConnectX-7 VPI
Derek Avatar