문3) AI 레드티밍, AI 안전성 설명
답)
I. AI 신뢰성 확보를 위한 AI 레드티밍과 AI 안전성의 개요
| 구분 | 정의 |
|---|---|
| AI 레드티밍 | AI 모델의 결함, 편향성, 취약점을 찾아내기 위해 의도적으로 적대적 공격을 수행하는 모의 훈련 |
| AI 안전성 | AI 모델이 의도치 않은 피해를 주지 않고, 인간의 의도와 가치에 부합하도록 설계/운영되는 상태 |
II. AI 레드티밍과 안전성의 상관관계 및 핵심 점검 영역
나) AI 레드티밍의 주요 공격 기법 및 점검 영역
| 점검 영역 | 주요 레드티밍(공격) 기법 | 안전성 확보 목적 |
|---|---|---|
| 보안 및 견고성 | 프롬프트 인젝션 및 탈옥 | |
| 시스템 프롬프트 노출 유도 | - 악의적 프롬프트 기반 지침 우회 및 권한·데이터 탈취 방지 | |
| 사실성 및 정보 | 환각 유도 프롬프트 | |
| 오정보/가짜뉴스 생성 요청 | - 거짓 정보 생성 최소화 및 신뢰성·투명성 확보 | |
| 윤리 및 공정성 | 적대적 프롬프팅 | |
| 편향적/차별적 상황 가정 질의 | - 유해·편향 콘텐츠 차단 및 공정성 확보 |
다) AI 안전성(Safety)의 3대 핵심 요건
| 핵심 요건 | 주요 내용 | 세부 확보 목표 |
|---|---|---|
| 가치 정렬 | AI의 행동이 인간의 의도 및 윤리적 가치와 완벽히 일치하도록 통제 | - HHH 기준 (Helpful, Honest, Harmless) 충족 |
| 견고성 | 적대적 공격이나 예외적인 노이즈 상황에서도 시스템 정상 작동 | - 오작동 최소화 및 프롬프트 방어력 확보 |
| 공정성 | 학습 데이터 및 알고리즘의 편향을 배제하여 결과의 중립성 보장 | - 사회적 차별/혐오 배제 및 투명성(XAI) 적용 |
III. AI 안전성 강화를 위한 향후 발전 방향
[ 1. 수동 레드티밍의 한계 ] ===> [ 2. 자동화된 레드티밍 (Auto-RT) ] ===> [ 3. Continuous MLOps 통합 ] (인력 기반, 비용/시간 과다) (AI로 AI를 공격하는 적대적 모델) (CI/CD 파이프라인 내재화)