1라운드) 이종 AI 반도체 시스템

<aside>

💡 2교시형 문제는 약 3장을 작성해야 함.

</aside>

문2) 이종 AI 반도체 시스템의 자원 모니터링 설명

이종 AI 반도체 시스템의 구성 및 반도체 유형
AI 학습과 추론의 자원 활용 패턴
이종 컴퓨팅 환경의 AI 워크로드 특화 모니터링 기법

답)

I. 고효율 AI 연산을 위한 이종 AI 반도체 시스템의 개요

이종 AI 반도체 시스템의 정의 및 배경

정의 :
- AI 학습·추론의 처리 특성에 맞추어 서로 다른 반도체를 역할별로 분담
- 성능, 응답속도, 전력효율을 종합적으로 높이기 위한 통합 컴퓨팅 구조
배경 :
- AI 연산 수요 급증
- 범용 구조 한계 노출
- 저전력 고효율 요구
- 학습 추론 구조 분화

이종 AI 반도체 시스템의 개념도

   [ AI 어플리케이션 / 프레임워크 ] - PyTorch, TensorFlow
  -----------------------------------------------------------
   [ SW 스택 ]  컴파일러, 런타임 (CUDA, ROCm, OpenVINO, XRT)
  -----------------------------------------------------------
   [ HW 계층 ] (이종 반도체 자원 풀)
      ┌──────────┐      ┌──────────┐      ┌──────────┐       ┌──────────┐
      │   CPU    │ <──> │   GPU    │ <──> │ NPU/ASIC │ <──>     FPGA
      └────┬─────┘      └────┬─────┘      └────┬─────┘       └────┬─────┘
           └─────────┬───────┴────────┬────────┘──────────────────┘
              [ 고대역폭 메모리(HBM) / 시스템 메모리 ]
                 [ PCIe / CXL / NVLink / NoC ]

제어(CPU)와 가속(GPU/NPU)이 분리되고, 고속 인터커넥트를 통해 자원을 공유

II. 이종 AI 반도체 시스템의 구성 및 반도체 유형 (가 대응)

이종 AI 반도체 시스템의 3계층 구성 아키텍처

시스템 계층	주요 자원	핵심 역할 및 특징
1. 제어 및 호스트 계층
CPU	- OS 구동 및 전체 워크로드 스케줄링

데이터 전/후처리 및 가속기로의 데이터 분배 | | 2. AI 가속 계층 | GPU, NPU, FPGA, ASIC | - 대규모 행렬 연산 및 AI 병렬 처리
학습/추론 등 목적에 따른 오프 로딩 연산 | | 3.메모리·인터커넥트 및 시스템 SW 계층 | 온칩 HBM, NoC, PCIe, 런타임/컴파일러 | - 가속기-메모리 간 지연 시간 최소화
이종 반도체 간 통신 |
CPU의 중앙 제어 하에 특화 가속기와 고속 인터커넥트가 유기적으로 결합된 통합 아키텍처

이종 컴퓨팅 환경의 핵심 반도체 유형

반도체 유형	역할 및 기능	주요 활용
CPU	범용 제어 및 스케줄링

I/O, OS 구동, 전처리 | - 복잡한 분기 로직 처리에 강점
다양한 작업을 처리하는 범용 프로세서 | | GPU | 대규모 병렬 행렬 연산
AI 모델 학습 및 추론 가속 | - 수천 개의 코어로 ML 작업을 고속 처리
인스턴스 메모리와 분리된 HBM 활용 | | NPU (Neural) | 저전력 온디바이스 AI에 강한 AI 전용 처리장치 | - CPU/GPU의 부하를 오프로딩하여 효율 증대
온디바이스(On-Device) AI의 핵심 | | FPGA | 하드웨어 재구성 가속
실시간 추론 및 센서 제어 | - 워크로드가 고정되지 않은 환경에 적합
높은 성능/와트 및 시스템 통합 유리(Adaptive SoC) | | ASIC | 특정 목적을 위해 맞춤 설계된 더 넓은 범주의 전용 칩 | - 범용성은 낮으나 전력 효율과 성능이 압도적
대표 사례: 머신러닝 워크로드 전용 TPU |