구글 클라우드, 8세대 TPU v8t 및 v8i 발표... 학습과 추론의 완벽한 분리

핵심 요약

Google Cloud Next ‘26에서 학습 전용인 TPU v8t와 추론 전용인 TPU v8i가 공개되었습니다.
기능별로 아키텍처를 분리함으로써 학습 효율성과 추론 시의 저지연 성능을 극대화했습니다.
에너지 소비를 최적화하여 데이터센터 운영 비용을 절감하고 클라우드 내 맞춤형 AI 인프라 경쟁력을 강화했습니다.

상세 분석

구글 클라우드가 자사의 독자적인 AI 가속기인 텐서 프로세싱 유닛(TPU)의 8세대 라인업을 발표하며 하드웨어 전략의 근본적인 변화를 선언했습니다. 이번 ‘Google Cloud Next ‘26’에서 공개된 핵심은 AI 워크로드를 ‘학습(Training)‘과 ‘추론(Inference)‘이라는 두 개의 뚜렷한 영역으로 나누고, 각각에 최적화된 하드웨어인 ‘TPU v8t’와 ‘TPU v8i’를 제공한다는 점입니다. 학습 전용 칩인 TPU v8t는 수천억 개의 파라미터를 가진 거대 언어 모델(LLM)을 빠르게 구축하기 위해 높은 처리량(Throughput)과 칩 간 초고속 인터커넥트 성능에 집중했습니다.

반면, 실서비스 적용에 초점을 맞춘 TPU v8i는 이미 학습된 모델을 구동할 때 필요한 저지연성(Latency)과 전력 대비 성능(Perf/Watt)을 극대화하도록 설계되었습니다. 이러한 이원화는 모든 용도에 범용 칩을 사용하는 기존 방식에 비해 데이터센터의 전체 전력 설계 효율(TDP)을 획기적으로 개선합니다. 구글의 이러한 행보는 엔비디아의 범용 GPU 의존도를 줄이고, 클라우드 고객들이 자신의 특정 작업 부하에 맞춰 가장 저렴하고 효율적인 인프라를 선택할 수 있게 하려는 계산이 깔려 있습니다.

이는 결국 클라우드 하이퍼스케일러들이 자체 설계한 커스텀 실리콘(ASIC)을 통해 독자적인 생태계를 구축하고 서비스 단가를 낮추는 ‘수직 계열화’ 경쟁에서 구글이 한발 앞서가고 있음을 보여주는 사례입니다. 에너지 지속 가능성이 데이터센터의 최대 화두인 시점에서, 추론 칩의 효율 최적화는 구글 클라우드의 가장 강력한 경쟁 우위가 될 것입니다.

시사점

구글의 TPU v8t/v8i 분리는 AI 연산의 성격 변화를 가장 정확하게 꿰뚫어 본 전략입니다. 학습은 ‘성능’이, 추론은 ‘비용과 효율’이 핵심인 시대로 진입했습니다. 하드웨어를 이원화함으로써 구글은 엔비디아의 범용 GPU가 가질 수 없는 극강의 전력 효율성을 확보하게 되었습니다.

이는 클라우드 시장에서 ‘가장 저렴하고 효율적인 AI 인프라’라는 타이틀을 선점하여 엔비디아 중심의 독점 구조를 깨뜨리려는 고도의 실리콘 주권 강화 전략입니다.

핵심 요약

상세 분석

시사점

🔍 연관 분석 리포트

NVIDIA-구글, 차세대 '베라 루빈' 아키텍처로 AI 추론 비용 10배 절감 및 인프라 혁신 단행

엔비디아 루빈 CPX 가속기 발표: 추론 프리필 단계에 최적화된 싱글 다이 아키텍처

구글-띵킹 머신즈 랩의 수십억 달러 파트너십: GB300과 인프라 패권을 향한 전략적 베팅