엔비디아 블랙웰 GB200 서버의 출시는 왜 연기되는 것인가?

엔비디아 블랙웰 GB200 서버에 대해서 자세히 알아보겠습니다. 이 글은 엔지니어 관점에서 쓴 기술적인 글이 아니라 경제성에 초점을 맞춰 작성했습니다.

2024년 3월, 엔비디아의 황 사장은 블랙웰이라는 새로운 GPU를 소개했습니다. 그는 이 GPU가 LLM 모델을 구현하는 것뿐만 아니라 영상을 학습하고 흉내 내기 위해 디자인된 것이라고 말했습니다. 한마디로, 텍스트와 이미지에서 영상으로 넘어가기 위해 엄청난 컴퓨팅 파워가 필요하며, 이를 위해 성능을 극한으로 올린 GPU라는 이야기였습니다.

엔비디아 블랙웰 GB200_성능

엔비디아 웹사이트에 가보면, 블랙웰 GPU를 장착한 최상위 모델인 GB200의 성능과 현존 가장 인기 있는 제품인 H100의 성능을 비교해 놓았습니다. 여기에는 여러 가지 기술적인 혁신이 포함되는데요, 모두가 쉽게 읽을 수 있도록 최소한의 정보를 중심으로 설명하겠습니다.

엔비디아 블랙웰 서버의 종류

엔비디아 블랙웰 GB200_라인업

출처: 엔비디아

엔비디아는 B 시리즈 2종 (B100, B200)과 GB 시리즈 2종 (GB200 NVL72, GB200 NVL36x2)의 출시를 예고했습니다. 물론 시간이 갈수록 다양한 모델이 추가되고 있습니다.

B200 모델은 전통적인 방식의 GPU 서버로, H100과 같은 구조를 가집니다. 엔비디아는 GPU만 제공하고, CPU는 인텔의 제온이 장착되는 구조입니다. 반면, GB200은 엔비디아가 직접 디자인한 그레이스 CPU(ARM 기반)와 블랙웰 GPU 두 개가 하나의 보드에 장착되는 구조입니다.

GB200는 CPU와 GPU가 통합됨에 따라 B200에 비해 더 높은 컴퓨팅 파워를 제공하며, 전성비(와트당 성능)도 더 뛰어나다고 합니다. 반면, 성능을 극한으로 끌어올리기 위해 더 비싼 부품과 액체 냉각 방식을 활용해야 합니다. 당연히 비용적으로 더 큰 부담이 됩니다.

엔비디아 H100 서버 가격과 GB200 비교

H100 서버의 가격은 모델명에 따라 차이가 있지만, 20만달러 ~30만달러가 엔비디아 제공하는 공식가격이라고 알려져 있습니다. 반면에 미국의 대중국 AI서버 수출금지로 인해, 중국에서는 40만~50만달러에 판매되기도 하였습니다. 2024년 2분기에 H200라는 후속모델이 출시되고 블랙웰의 출시일이 다가오면서 H100의 시장가격이 하락하고 있습니다. 

엔비디아 블랙웰 GB200는 대당 2~3백만 달러가 될 것으로 추정되며, 엔비디아는 6만대에서 7만대 가량의 GB200 서버를 출시할 계획을 가지고 있다고 합니다.

엔비디아 블랙웰 GB 200 세부모델

GB200 NVL72:

  • 소요 전력: 랙당 약 120kW
  • 구성: 18개의 1U 컴퓨팅 트레이와 9개의 NVSwitch 트레이
  • 사양: 각 컴퓨팅 트레이에는 1개의 Grace CPU와 2개의 Blackwell GPU 탑재
  • 사용처: 고급 인프라를 갖춘 하이퍼스케일러에게 적합

GB200 NVL36x2:

  • 구성: 나란히 배치된 두 개의 랙으로 상호 연결
  • 사양: 각 랙에는 18개의 Grace CPU와 36개의 Blackwell GPU 포함
  • 소요 전력: 랙당 66kW, 두 랙 합계 132kW
  • 장점: 대부분의 데이터 센터에서 전력 및 냉각 요구 사항을 쉽게 관리 가능

GB200 NVL36x2 (Ariel):

  • 특징: Meta의 높은 CPU 코어와 메모리 요구 사항에 맞춰 커스터마이즈됨
  • 사양: 각 보드에 1개의 Grace CPU와 1개의 Blackwell GPU 사용
  • 적합한 작업: 추천 시스템 워크로드에 이상적

x86 B200 NVL72/NVL36x2 (Miranda):

  • 특징: Nvidia의 Grace CPU 대신 x86 CPU 사용
  • 장점: 자본 비용이 낮음
  • 단점: CPU-GPU 대역폭이 감소

위의 제품들 외에도 여러 가지 다른 파생 모델들이 양산되고 있습니다. 주목할 점은 최상급 모델인 GB200 NVL72를 데이터 센터에 설치하기 위해서는, 새로운 인프라(건물, 전력선, 냉각 시스템)가 필요하다는 것입니다. 마치, 엔비디아의 새로운 GPU를 사용하여 게임하려면 PC 본체와 메인보드를 완전히 교체해야 한다는 뜻입니다. (물론, 전력 공사가 필요해서 집을 새로 사야 한다는 이야기일 수도 있습니다.) 한마디로 배보다 배꼽이 더 큰 상황일 수 있습니다.

엔비디아는 GB200 NVL72를 하이퍼스케일러, 즉 마이크로소프트, 구글, 아마존, 메타 같은 빅테크 회사들을 타겟으로 한다고 했지만, 그들에게도 새 AI 서버를 구매하기 위해 새집을 사는 투자는 쉽게 결정할 사안이 아닐 것입니다.

반면, GB200 NVL36x2는 NVL36 서버 랙을 두 개 합쳐서 NVL72의 퍼포먼스를 낸다는 개념의 설계입니다. 이것의 장점은 NVL36 서버 랙 하나의 전력 소모량이 66KW 밖에 되지 않아 기존 데이터 센터에 적용이 가능하다는 것입니다. 물론 적용이 가능할 것이라는 것이지, 이것이 실제로 기존 데이터 센터에 적용되어 정상 작동하는 것이 확인되기 전까지는 누구도 알 수 없는 일이긴 합니다.

엔비디아 블랙웰 GB200 의 주요 장점:

이쯤에서 GB200 서버의 주요 장단점을 전작인 H100와 비교해 보겠습니다.

성능 향상 

엔비디아 블랙웰 GB200 아키텍처는 컴퓨터 트레이당 두 개의 Blackwell GPU를 포함하여 더 높은 GPU 밀도와 개선된 계산 능력을 제공합니다. 또한 NVLink는 900GB/s의 우수한 인터커넥트 대역폭을 제공합니다.

고급 NVLink 패브릭 

GB200의 NVLink 인터커넥트, 특히 NVL72 구성에서는 72개의 GPU 간의 효율적이고 고속 연결을 가능하게 합니다.

향상된 컴퓨팅 트레이 설계 

동일한 PCB에 CPU와 GPU를 통합하여 PCIe 스위치와 리타이머의 필요성을 제거함으로써 효율성을 높이고 삽입 손실을 줄입니다.

액체 냉각 

GB200는 고급 액체 냉각 솔루션을 도입하여 NVL72에서 최대 120kW의 높은 전력 밀도를 처리할 수 있도록 합니다.

엔비디아 블랙웰 GB200 의 주요 단점:

높은 전력 소비 

엔비디아 블랙웰 GB200 랙, 특히 NVL72 폼 팩터는 랙당 최대 120kW의 전력을 요구하며, 이는 H100의 랙당 약 40kW의 전력 밀도에 비해 훨씬 높습니다. 증가된 전력 수요는 고급 전력 인프라와 더 높은 운영 비용을 필요로 합니다.

증가된 냉각 요구 사항 

GB200 랙은 더 복잡하고 대개 더 높은 비용이 드는 고급 액체 냉각 솔루션을 필요로 합니다.

호환성과 전환 문제 

H100에서 GB200으로의 전환은 전력 분배, 냉각 시스템 및 네트워킹 장비의 변경을 포함하여 인프라에 상당한 변화를 필요로 합니다.

결국 GB200의 장점을 단위당 높은 성능이고 단점은 높은 비용입니다. 그 중에서 가장 큰 문제는 GB200의 설치를 위해서 새로운 데이터센터와 전력선로의 건설이 필요할지도 모른다는 것이겠지요. 물론, 이를 투자해서 몇년안에 큰돈을 벌것같으면, 자금력이 풍부한 빅테크들이 대규모에 투자에 나설 것입니다.

AI 투자에 대한 버블론.

2024년 7월에 열린 구글의 실적 발표장에서는, 연간 수십조 원을 쏟아부은 AI 부문에서 언제 만족할 만한 실적을 보여줄 수 있느냐는 투자자들의 질문이 쇄도하였습니다. 세계 최대 벤처캐피탈 중 하나인 세콰이어는 보고서를 통해 지금까지 쏟아부은 투자금을 회수하려면 연간 830조 원의 AI 시장이 만들어져야 하는데, 이것이 가능하겠냐는 질문을 했습니다. 실제로 미국의 4대 빅테크 업체는 1500억 달러(200조 원)에 달하는 자본 지출을 2023년에 단행했고 올해는 2000억 달러에 달할 전망입니다. 물론 이 모든 금액이 AI에 지출되는 것은 아닙니다.

뜬금없는 B100와 GB200의 1분기 출시 연기설

 8월 5일 주식시장은 일본 시장 지수가 12% 빠지고 삼성전자가 10% 하락하는 십년에 한 번 볼까 말까 한 극단적인 상황을 연출하였습니다. 이 흐름의 중심에는 엔비디아 블랙웰 서버의 출시 연기설이 있었습니다. 현재도, 출시 연기의 이유에 대한 여러 가지 설이 나오고 있지만, 대체적으로는 TSMC의 패키징 캐파 부족을 주요 이유로 들고 있습니다. 그리고 엔비디아는 B200의 다운그레이드 버전인 B200A를 출시하여, 출시 연기의 악영향을 최소화하겠다는 것입니다. 원래 2024년 4분기에 출시되어야 하는 물건이 2025년 1분기로 연기되었다고 시장이 이렇게 하락해야 하는 것일까요? 여기에 대한 의구심이 생깁니다.

결론 : 동영상 생성 AI 기술은 상업화가 가능한 단계인가?

< OpenAI의 video 생성물>

엔비디아 블랙웰 GB200_소라

황 사장이 언급하였듯이, 블랙웰 GPU와 GB200 서버는 텍스트와 이미지에 국한된 현재의 AI를 영상으로 끌어올리기 위해 출시되었습니다. 이미 오픈AI는 소라라는 서비스가 생성한 여러 영상을 공개한 바 있습니다. 영상 제작을 직업으로 삼고 있는 분들에게는 다소 섬뜩한 서비스라는 평이었습니다.

그런데, 이 서비스가 실제 사용 가능할 만큼 아주 높은 품질인가에 대해서는 의문이 남습니다. 왜냐하면 실사 영화나 애니메이션을 제작할 수 있는 수준의 성능인지에 대해 검증되지 않았기 때문입니다.

따라서 이런 의문이 생길 수 있습니다. 만약 빅테크들이 영상 제작을 위한 AI 서비스는 아직 시기상조라고 생각한다면 어떨까요? 그들이 영상 제작을 위한 서비스를 구축하기 위해, 새로운 데이터 센터를 건설하고 인프라를 새로 구축하면서까지 GB200 서버를 공격적으로 구매할까요?

아니면, 아직도 유의미한 매출을 만들어내지 못하고 있는 텍스트 기반의 LLM 모델을 더 정교화하여 수익화하는 데 더 많은 시간을 보낼까요?

만약 빅테크들이 후자에 더 많은 시간을 쓴다면, 블랙웰 시리즈에 대한 수요보다는 H100/200 혹은 B200A와 같은 소규모 업그레이드 모델에 더 많은 수요가 집중될 것이라고 생각됩니다. 아직은 누구도 답을 알지 못하지만, 결국 황 사장의 입에서 그 해답이 나올 것이라 생각됩니다.

Leave a Comment