🔍 핵심 요약
- 구글이 8세대 텐서 프로세싱 유닛(TPU)을 학습 전문 'TPU 8t'와 추론 최적화 'TPU 8i'로 이원화하여 전격 공개함.
- 범용 가속기(GPU)의 효율성 한계를 극복하기 위해 모델 생애주기의 각 단계에 특화된 도메인 특화 아키텍처(DSA)로의 완전한 전환을 선언함.
- 칩 디자인부터 메모리 구조, 인터커넥트, 스케줄링까지 전체 스택을 재구성하여 엔비디아 대비 비용 및 에너지 효율성 우위를 확보함.
상세 분석
구글의 커스텀 실리콘 전략: 도메인 특화의 정점
구글은 최근 자사의 8세대 텐서 프로세싱 유닛(TPU)을 공개하며 AI 반도체 시장에 강력한 메시지를 던졌습니다. 이번 8세대 TPU의 가장 큰 특징은 이전까지의 범용성을 과감히 버리고 ‘분화’와 ‘특화’를 택했다는 점입니다. 구글은 대규모 데이터 학습을 전담하는 ‘TPU 8t(Training)‘와 실제 서비스 환경에서 학습된 모델을 구동하는 ‘TPU 8i(Inference)‘로 칩셋을 이원화했습니다.
이는 AI 모델 개발의 생애 주기를 고려할 때, 거대 모델의 가중치를 업데이트하는 ‘학습’과 사용자 요청에 즉각 반응하는 ‘추론’이 요구하는 연산 특성이 근본적으로 다르다는 점을 정밀하게 반영한 설계입니다.
DSA 아키텍처의 혁신과 엔비디아와의 차별점
이러한 전략적 분화는 단순히 칩을 물리적으로 나눈 것을 넘어, 시스템 전체의 재구조화를 의미합니다. 구글은 칩 디자인은 물론 인터커넥트, 메모리 계층 구조, 그리고 작업 스케줄링 알고리즘까지 전면 개편했습니다. 학습용 TPU 8t는 수만 개의 노드를 연결하여 초당 페타플롭스 단위의 연산을 수행하기 위해 고대역폭 메모리(HBM)와 칩 간 고속 연결성에 최적화되었습니다.
반면, 추론용 TPU 8i는 서비스 규모가 커짐에 따라 발생하는 전력 비용을 최소화하기 위해 낮은 지연 시간(Low Latency)과 높은 전력 효율(Performance per Watt)을 극대화하는 데 초점을 맞췄습니다.
이는 모든 작업에 대응할 수 있도록 범용적으로 설계된 엔비디아의 GPU 방식과는 정반대의 접근입니다. 엔비디아의 GPU가 ‘스위스 아미 나이프’처럼 다양한 작업에 능하다면, 구글의 8세대 TPU는 학습과 추론 각각의 목적에 최적화된 ‘특수 전문 장비’와 같습니다. 구글의 이러한 도메인 특화 아키텍처(DSA)로의 전환은 AI 인프라 운영 비용을 획기적으로 낮추고, 자사 소프트웨어와의 수직 계열화를 통해 성능을 극대화하려는 전략입니다.
결과적으로 구글은 전용 칩을 통해 하드웨어 종속성에서 벗어나 독자적인 AI 연산 경쟁력을 확보하겠다는 의지를 분명히 하고 있습니다.
시사점
구글의 TPU 이원화는 ‘범용 AI 가속기’의 효율성 한계를 인정하고 ‘도메인 특화(DSA)‘의 시대로 진입했음을 선언한 것입니다. 특히 추론 전용 칩인 8i는 대규모 서비스 운영 시 엔비디아 대비 압도적인 비용 절감을 가능케 할 것입니다. 이는 하드웨어와 소프트웨어를 동시에 통제하는 빅테크만이 가질 수 있는 강력한 수직 계열화의 승리입니다.



