'각세종' 전경. 네이버 제공네이버클라우드는 GPU 운영 효율을 극대화하고 AI 인프라를 스스로 설계·운영할 수 있는 차별화된 기술 역량을 공개했다.
네이버클라우드는 28일 국내 최초의 AI 데이터센터인 '각 세종'에서 테크밋업을 열고 이같이 밝혔다.
지난 2023년 세종시에 선립된 데이터센터인 '각 세종'은 기존 IDC가 수행하던 저장·처리 기능을 넘어 AI 학습과 추론이 동시에 이뤄지는 고밀도 GPU 연산 공간으로 설계됐다. 이를 위해 전력과 냉각 효율, 무정지 운영까지 모두 고려해 AI 인프라가 24시간 안정적으로 작동할 수 있는 환경을 구축했다.
AI 연산이 집중되는 데이터센터에서 가장 중요한 요소는 발열 관리다. GPU 전력 밀도가 높아지면서 냉각은 효율과 안정성을 좌우하는 핵심 요소다. 이에 '각 세종'은 직접외기·간접외기·냉수를 병행하는 하이브리드 냉각 시스템을 적용했다. 계절별로 냉각 방식을 자동 전환해, 겨울에는 외부의 찬 공기로 직접 냉각하고 간절기와 여름에는 간접외기와 냉수를 병행한다.
또한 액침냉각 컨테이너 인프라를 구축해 냉각 용액의 안정성, 에너지 효율, 운영 안정성 등을 검증 중이다. 이를 기반으로 네이버클라우드는 고전력·고밀도 환경에 대응하는 차세대 냉각 기술 로드맵을 구체화하고, 수냉식 서버 냉각 관련 자체 특허도 출원 완료했다.
또 장애 상황에서도 서비스가 멈추지 않도록 전력과 냉각, 서버 운용 체계를 완전히 분리하면서도 유기적으로 통합한 이중화 구조로 설계됐다. GPU 서버의 고전력 특성에 맞게 UPS(무정전 전원 장치)와 배전 설비를 재배치해 장애 전파를 구조적으로 차단했으며 이러한 구조 '각 세종'이 24시간 안정적으로 운영할 수 있다.
네이버는 장애 상황에서도 흔들리지 않는 표준화된 인프라 구조와 자동화된 운영 체계를 구축했다. 모든 서버는 도입 전 단계에서 성능·전력 효율·운용성을 검증해 표준 사양으로 구성되며, GPU 등 고성능 자원은 실시간 상태 감시와 자동 복구 기능을 통해 장애 발생 시에도 안정적인 서비스 연속성을 유지할 수 있다.
이러한 운영 기반 위에서 네이버의 AI 플랫폼은 모델 개발부터 학습, 추론, 서빙까지 AI의 전 과정을 하나로 연결하는 통합 운영 체계로 작동한다. 내부적으로는 하이퍼클로바의 학습과 운영이 모두 이 플랫폼 위에서 이루어지며 GPU 자원 배분, 모델 관리, 스케줄링까지 효율적으로 통제된다.
이에 개발자는 인프라 제약 없이 학습·실험을 진행할 수 있고, 운영자는 GPU 사용 현황과 전력 효율을 실시간으로 모니터링 및 분석하고, 적재적소에 최적화 요소를 적용할 수 있어 네이버의 AI 플랫폼은 단순한 실행 환경이 아닌, AI 개발과 운영이 하나로 통합된 'AI 인프라의 두뇌'로 자리 잡고 있다.
네이버클라우드는 기술과 운영 역량을 기반으로 'GPUaaS(GPU as a Service)' 모델을 통해 국내 주요 기업에 AI 인프라 서비스를 제공하고 있으며, 이미 여러 산업 현장에서 활용되고 있다.
네이버클라우드 이상준 CIO는 "네이버클라우드는 축적한 AI 인프라 운영 역량을 GPUaaS 모델로 발전시켜 국내 기업들이 손쉽게 AI를 활용할 수 있는 생태계를 만들 것" 이라면서 "이를 통해 AI 인프라가 특정 기업의 자산을 넘어, 산업 전반의 성장 기반이 될 수 있도록 하겠다"고 포부를 밝혔다.