Interconnect: Ethernet vs. Infiniband

Interconnect: Ethernet vs. Infiniband

AI 인프라에서 네트워킹은 시스템 성능을 결정하는 중요한 요소입니다. 특히 여러 노드나 GPU를 확장할 때 네트워크 성능이 매우 중요합니다. 이 분야에서 주로 비교되는 네트워킹 기술은 이더넷(Ethernet)인피니밴드(InfiniBand)입니다. 여기서는 100Gbps 이더넷과 200/400Gbps 인피니밴드의 기술적 세부 사항을 중심으로, 지연 시간(latency), 처리량(throughput), 가격 관점에서 비교해보겠습니다.

1. 기술적 개요

100Gbps 이더넷

  • 지연 시간: 고성능 100Gbps 이더넷의 지연 시간은 일반적으로 2~5 마이크로초입니다.
  • 처리량: 100Gbps, 링크 집합(link aggregation)을 통해 다중 테라비트 대역폭으로 확장 가능.
  • 사용 사례: 데이터 센터에서 널리 사용되며, 기존 네트워크 인프라와의 호환성과 폭넓은 지원으로 인해 선호됨.
  • 가격: 인피니밴드보다 저렴하며, 스위치와 NIC(Network Interface Card) 비용이 상대적으로 낮음.
  • 확장성: 이더넷은 네트워크 관리가 잘 지원되며 대규모 인프라에서도 쉽게 확장 가능.

200Gbps 이더넷

  • 지연 시간: 1~3 마이크로초로, 100Gbps 이더넷에 비해 더 낮은 지연 시간을 제공할 수 있습니다.
  • 처리량: 200Gbps의 대역폭으로, 고성능 컴퓨팅(HPC)과 AI 워크로드에서 넉넉한 처리량을 제공합니다.
  • 사용 사례: 분산 AI 훈련, 대규모 데이터 분석, 고성능 데이터 센터 네트워킹 등에 적합.
  • 가격: 100Gbps 이더넷에 비해 다소 높지만, 인피니밴드에 비해서는 여전히 저렴한 편입니다.
  • 확장성: 대규모 데이터 센터에서 수천 노드까지 확장 가능하며, 기존 이더넷 기반 관리 툴과의 호환성도 뛰어납니다.

400Gbps 이더넷

  • 지연 시간: 200Gbps 이더넷과 유사한 수준이지만, 대역폭이 더 높아 병목 현상을 더욱 줄여줍니다.
  • 처리량: 400Gbps의 초고속 대역폭으로, 대규모 AI 훈련 및 인퍼런스에서 매우 높은 성능을 발휘합니다.
  • 사용 사례: 초대규모 데이터 센터, 클라우드 인프라, AI 슈퍼컴퓨팅 환경에서 사용됩니다.
  • 가격: 200Gbps보다 높은 가격대를 형성하며, 인프라 비용 측면에서 인피니밴드와 비교할 때 선택 기준이 될 수 있습니다.
  • 확장성: 400Gbps 이더넷은 대규모 AI 클러스터에서 수평 확장이 가능하며, 기존 이더넷 네트워킹 솔루션과의 호환성도 유지됩니다.

200/400Gbps 인피니밴드

  • 지연 시간: 인피니밴드는 지연 시간이 매우 낮아 보통 1마이크로초 이하입니다. 빠르고 동기화된 데이터 교환이 필요한 분산 AI 워크로드에 이상적입니다.
  • 처리량: 200Gbps(HDR) 및 400Gbps(NDR) 옵션으로 매우 높은 대역폭 제공.
  • 사용 사례: 대규모 AI 모델 훈련이나 분산 딥러닝 워크로드와 같이 낮은 지연 시간과 높은 처리량이 중요한 고성능 컴퓨팅(HPC) 및 AI 환경에서 주로 사용됩니다.
  • 가격: 인피니밴드는 전문화된 특성과 RDMA(Remote Direct Memory Access), 적응형 라우팅과 같은 고급 기능으로 인해 더 비싼 편입니다.
  • 확장성: 인피니밴드는 구조가 더 복잡하지만, AI 응용 프로그램에서 성능과 확장성 측면에서 더 우수합니다. 주로 전용 클러스터나 슈퍼컴퓨팅 환경에서 사용됩니다.

2. AI 인프라에서의 비교

Latency

  • 이더넷: 최신 이더넷 솔루션은 낮은 지연 시간을 제공할 수 있지만(약 2~5 마이크로초), 인피니밴드에 비해 여전히 높습니다. 200Gbps 및 400Gbps 이더넷은 인피니밴드에 비해 여전히 높은 지연 시간을 가지고 있지만, 최신 기술 개선으로 인해 1~3 마이크로초 수준의 지연 시간을 제공합니다. 이는 분산 AI 워크로드에서 많은 경우 충분히 경쟁력 있는 성능을 제공합니다.
  • 인피니밴드: 1마이크로초 이하의 지연 시간으로, 분산 딥러닝에서 그래디언트 동기화와 같은 지연 시간에 민감한 작업에 있어 중요한 이점을 제공합니다. 그러나 노드수량이 적거나(대략 5노드 미만), 전체 노드를 사용하는 AllReduce 작업 등이 주 목적이 아니라면 전체 인프라비용의 약 23~33%를 차지하는 고가의 Infiniband를 채택하는 것은 매우 낭비입니다.
  • 성능향상기술: AI 인프라에서는 대규모 분산 학습과 데이터 전송이 빈번하게 이루어지기 때문에, 고성능 네트워크에서의 혼잡 제어(Congestion Control)가 매우 중요합니다.
    – 특히 InfiniBand와 같은 네트워크에서는 초저지연과 고처리량을 유지하기 위해 정교한 혼잡 제어 메커니즘이 필요합니다. RDMA(Remote Direct Memory Access)와 같은 기술은 혼잡을 최소화하고 네트워크 성능을 최적화하는 데 사용됩니다.
    – 이런 혼잡제어 기능은 일반 이더넷 대비 Infiniband가 보유한 매우 좋은 기능이며, 따라서 노드수량이 많고 사용자 수가 늘어날수록 네트워크 혼잡제어를 통해 전체 Latency를 절약합니다.
    – 진보된 혼잡제어 기능이 적용된 이더넷은 Cray 슈퍼컴퓨터에서 개발한 Advanced Ethernet(Slingshot) 상에 구현되어 있으므로, 이더넷상에서 이 기능을 반드시 필요로 하는 경우에는 해당 기술적용을 통해 Latency를 최소화하면서 네트워크 호환성을 반영하여 전체 비용을 매우 낮출 수 있습니다. 다만, 이 기술은 Cray Supercomputer에만 해당되므로 인프라 구현시 선택옵션이 다소 제한적일 수 있겠습니다.

Throughput

  • 이더넷: 100Gbps 이더넷은 많은 응용 프로그램에 충분하지만, AI 모델과 데이터 세트가 커질수록 멀티 노드 구성에서 병목 현상이 발생할 수 있습니다. 200Gbps와 400Gbps 이더넷은 AI 인프라에서 대규모 데이터를 빠르게 처리할 수 있도록 지원합니다. 특히 400Gbps 이더넷은 고성능 AI 모델을 다룰 때 충분한 대역폭을 제공합니다.
  • 인피니밴드: 200Gbps 및 400Gbps 옵션으로, AI 워크로드에서도 병목 없이 데이터를 전송할 수 있어 부드럽고 빠른 데이터 교환이 이루어집니다.

비용 및 복잡성

  • 이더넷: 일반적으로 더 저렴하고 배포하기 쉽습니다. 이더넷은 비용이 성능보다 우선시되는 소규모 AI 클러스터에 적합합니다. 200Gbps와 400Gbps 이더넷은 AI 인프라에서 대규모 데이터를 빠르게 처리할 수 있도록 지원합니다. 특히 400Gbps 이더넷은 고성능 AI 모델을 다룰 때 충분한 대역폭을 제공합니다.
  • 인피니밴드: 더 높은 비용과 복잡성으로 인해, 설정과 관리가 더 어려운 편입니다. 그러나 대규모 분산 AI 워크로드에서 성능을 우선시하는 환경에서는 인피니밴드의 이점이 비용을 상회합니다. 노드 수량이 적은 경우 전체 인프라 도입비용의 약 14~20% 정도가 Infiniband 도입비용으로 사용되며, 노드수량이 많아지면 노드연결 및 다수의 스위치 연결을 위한 케이블 수량이 급격히 증가되어 전체 비용의 약 33% 수준까지 기하급수적으로 증가됩니다.

3. 사용 사례

  • 100Gbps 이더넷: 이더넷은 AI 훈련과 추론 워크로드에서 널리 사용되며, 절대적으로 낮은 지연 시간이 필요하지 않은 경우 적합합니다. 예를 들어, 중간 규모의 AI 연구소에서는 비용 효율성과 단순함 때문에 이더넷을 선호할 수 있습니다.
  • 200Gbps 이더넷: 대형 데이터 센터에서 일부 사용되어 분산 AI 훈련 및 데이터 처리 워크로드를 지원합니다. 예를 들어, 대규모 연구소나 중형 기업이 고성능 AI 모델을 운영할 때 주로 채택됩니다.
  • 400Gbps 이더넷: 초대규모 클라우드 환경과 AI 슈퍼컴퓨팅 클러스터에서 사용됩니다. Google, Microsoft, AWS와 같은 대형 클라우드 제공업체는 이미 400Gbps 이더넷 인프라를 도입하여 AI와 HPC 워크로드를 처리하고 있습니다.
  • 인피니밴드: 인피니밴드는 NVIDIA DGX SuperPOD와 같은 고성능 AI 클러스터에서 주로 사용됩니다. 저지연, 고처리량 특성 덕분에 대규모 분산 딥러닝 워크로드에 이상적입니다. Google, Meta, NVIDIA와 같은 대형 연구 기관이나 기업에서도 선호되고 있으나, 앞서 언급된대로 노드 수량이 적거나 AllReduce 기반의 전체 노드사용 단일작업이 많지 않다면 적용할 필요는 없습니다.

4. 기타 참고 사항

  • NVIDIA DGX 시스템: 이 시스템들은 분산 AI 워크로드에서 GPU 간 통신을 위해 인피니밴드(Mellanox)를 사용하며, 생산 환경에서 저지연 네트워킹의 이점을 잘 보여줍니다.
  • Microsoft Azure와 AWS: 이러한 클라우드 제공업체는 고속 이더넷과 인피니밴드 옵션을 제공하여 고객이 워크로드 요구 사항에 따라 선택할 수 있습니다. 예를 들어, AWS는 Elastic Fabric Adapter(EFA)를 제공하여 HPC와 AI 응용 프로그램에 낮은 지연 시간 네트워킹을 지원합니다.
  • 일반 기업 및 공공기관: AI 시스템을 on-premise로 도입하여 사용하는 대부분의 기업/공공기관들은 각각의 운용목적 및 주요 워크로드를 고려하여 네트워크를 선택합니다. 외부 기관과의 협업 또는 대외서비스 비율이 높은 경우에는 당연히 비용 및 호환성이 보장되는 이더넷 기반 네트워크로 전체 인프라를 구성하는 것이 권장사항입니다. 그러나 내부 용도로 국한되어 사용되거나 학습에 소요되는 노드 수량이 많다면 인피니밴드 네트워크가 조금 더 성능면에서 좋을 수는 있습니다.

요약

AI 인프라에서 비용과 단순함이 주요 고려 사항이라면 100Gbps 이더넷이 실용적인 선택입니다. 성능과 광범위한 호환성을 제공하면서도 저렴합니다. 그러나 대규모 분산 AI 워크로드, 특히 지연 시간에 민감한 환경에서는 200/400Gbps 인피니밴드가 더 나은 성능을 제공하여, 성능 우선 환경에서 높은 가치를 발휘합니다. 선택은 주로 AI 인프라의 특정 요구 사항과 운영 규모에 따라 달라집니다.

Derek Avatar