<aside>
💡 2교시형 문제는 약 3장을 작성해야 함.
</aside>
문2) 이종 AI 반도체 시스템의 자원 모니터링 설명
- 이종 AI 반도체 시스템의 구성 및 반도체 유형
- AI 학습과 추론의 자원 활용 패턴
- 이종 컴퓨팅 환경의 AI 워크로드 특화 모니터링 기법
답)
I. 고효율 AI 연산을 위한 이종 AI 반도체 시스템의 개요
- 이종 AI 반도체 시스템의 정의 및 배경
- 정의 :
- AI 학습·추론의 처리 특성에 맞추어 서로 다른 반도체를 역할별로 분담
- 성능, 응답속도, 전력효율을 종합적으로 높이기 위한 통합 컴퓨팅 구조
- 배경 :
- AI 연산 수요 급증
- 범용 구조 한계 노출
- 저전력 고효율 요구
- 학습 추론 구조 분화
- 이종 AI 반도체 시스템의 개념도
[ AI 어플리케이션 / 프레임워크 ] - PyTorch, TensorFlow
-----------------------------------------------------------
[ SW 스택 ] 컴파일러, 런타임 (CUDA, ROCm, OpenVINO, XRT)
-----------------------------------------------------------
[ HW 계층 ] (이종 반도체 자원 풀)
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ CPU │ <──> │ GPU │ <──> │ NPU/ASIC │ <──> FPGA
└────┬─────┘ └────┬─────┘ └────┬─────┘ └────┬─────┘
└─────────┬───────┴────────┬────────┘──────────────────┘
[ 고대역폭 메모리(HBM) / 시스템 메모리 ]
[ PCIe / CXL / NVLink / NoC ]
- 제어(CPU)와 가속(GPU/NPU)이 분리되고, 고속 인터커넥트를 통해 자원을 공유
II. 이종 AI 반도체 시스템의 구성 및 반도체 유형 (가 대응)
- 이종 AI 반도체 시스템의 3계층 구성 아키텍처
| 시스템 계층 |
주요 자원 |
핵심 역할 및 특징 |
| 1. 제어 및 호스트 계층 |
|
|
| CPU |
- OS 구동 및 전체 워크로드 스케줄링 |
|
- 데이터 전/후처리 및 가속기로의 데이터 분배 |
| 2. AI 가속 계층
| GPU, NPU, FPGA, ASIC | - 대규모 행렬 연산 및 AI 병렬 처리
- 학습/추론 등 목적에 따른 오프 로딩 연산 |
| 3.메모리·인터커넥트 및
시스템 SW 계층
| 온칩 HBM, NoC, PCIe,
런타임/컴파일러 | - 가속기-메모리 간 지연 시간 최소화
- 이종 반도체 간 통신 |
- CPU의 중앙 제어 하에 특화 가속기와 고속 인터커넥트가 유기적으로 결합된 통합 아키텍처
- 이종 컴퓨팅 환경의 핵심 반도체 유형
| 반도체 유형 |
역할 및 기능 |
주요 활용 |
| CPU |
범용 제어 및 스케줄링 |
|
- I/O, OS 구동, 전처리 | - 복잡한 분기 로직 처리에 강점
- 다양한 작업을 처리하는 범용 프로세서 |
| GPU
| 대규모 병렬 행렬 연산
- AI 모델 학습 및 추론 가속 | - 수천 개의 코어로 ML 작업을 고속 처리
- 인스턴스 메모리와 분리된 HBM 활용 |
| NPU
(Neural) | 저전력 온디바이스 AI에 강한 AI 전용 처리장치 | - CPU/GPU의 부하를 오프로딩하여 효율 증대
- 온디바이스(On-Device) AI의 핵심 |
| FPGA | 하드웨어 재구성 가속
- 실시간 추론 및 센서 제어 | - 워크로드가 고정되지 않은 환경에 적합
- 높은 성능/와트 및 시스템 통합 유리(Adaptive SoC) |
| ASIC | 특정 목적을 위해 맞춤 설계된 더 넓은 범주의 전용 칩 | - 범용성은 낮으나 전력 효율과 성능이 압도적
- 대표 사례: 머신러닝 워크로드 전용 TPU |