문3) AI 레드티밍, AI 안전성 설명

답)

I. AI 신뢰성 확보를 위한 AI 레드티밍과 AI 안전성의 개요

구분 정의
AI 레드티밍 AI 모델의 결함, 편향성, 취약점을 찾아내기 위해 의도적으로 적대적 공격을 수행하는 모의 훈련
AI 안전성 AI 모델이 의도치 않은 피해를 주지 않고, 인간의 의도와 가치에 부합하도록 설계/운영되는 상태

II. AI 레드티밍과 안전성의 상관관계 및 핵심 점검 영역

나) AI 레드티밍의 주요 공격 기법 및 점검 영역

점검 영역 주요 레드티밍(공격) 기법 안전성 확보 목적
보안 및 견고성 프롬프트 인젝션 및 탈옥
시스템 프롬프트 노출 유도 - 악의적 프롬프트 기반 지침 우회 및 권한·데이터 탈취 방지
사실성 및 정보 환각 유도 프롬프트
오정보/가짜뉴스 생성 요청 - 거짓 정보 생성 최소화 및 신뢰성·투명성 확보
윤리 및 공정성 적대적 프롬프팅
편향적/차별적 상황 가정 질의 - 유해·편향 콘텐츠 차단 및 공정성 확보

다) AI 안전성(Safety)의 3대 핵심 요건

핵심 요건 주요 내용 세부 확보 목표
가치 정렬 AI의 행동이 인간의 의도 및 윤리적 가치와 완벽히 일치하도록 통제 - HHH 기준 (Helpful, Honest, Harmless) 충족
견고성 적대적 공격이나 예외적인 노이즈 상황에서도 시스템 정상 작동 - 오작동 최소화 및 프롬프트 방어력 확보
공정성 학습 데이터 및 알고리즘의 편향을 배제하여 결과의 중립성 보장 - 사회적 차별/혐오 배제 및 투명성(XAI) 적용

III. AI 안전성 강화를 위한 향후 발전 방향

[ 1. 수동 레드티밍의 한계 ] ===> [ 2. 자동화된 레드티밍 (Auto-RT) ] ===> [ 3. Continuous MLOps 통합 ] (인력 기반, 비용/시간 과다) (AI로 AI를 공격하는 적대적 모델) (CI/CD 파이프라인 내재화)