문1) AI 에이전트 하이재킹 문제
답)
I. 실행 권한 탈취를 통한 실질적 위협, AI 에이전트 하이재킹의 개요
| 구분 | 주요 내용 |
|---|---|
| 정의 | 악의적 프롬프트 주입 등을 통해 AI 에이전트의 의사결정 흐름을 왜곡하여, 의도치 않은 비정상적 행동을 실행하게 만드는 공격 기법 |
| 위험성 | • 외부 도구 권한 악용 |
| • 금전거래 피해 발생 | |
| • 민감 데이터 유출 | |
| • 물리 행위 오작동 |
II. AI 에이전트 하이재킹의 공격 메커니즘 및 주요 공격 유형
가) AI 에이전트 하이재킹의 공격 메커니즘
[ 공격자 ]
│ ① 악성 프롬프트 주입
▼
+----------------------------------------------------+ | AI 에이전트 | | - 판단 왜곡 ➔ 정상 로직 우회 ➔ 악성 Tool 선택 | +----------------------------------------------------+ │ (② 가로챈 권한으로 악성 행위 실행) ▼ [ 외부 도구 (Tools/APIs) ] ──▶ (③ 결과: DB 유출, 권한 탈취, 결제 승인)
나) AI 에이전트 하이재킹 3대 공격 유형
| 공격 유형 | 핵심 공격 방식 | 피해 발생 예시 |
|---|---|---|
| 프롬프트 주입 | - 시스템의 기존 지시를 무시하고 새로운 악성 명령 실행 유도 | - 보안 정책 우회 및 시스템 오동작 유발 |
| 도구 오용/조작 | - 에이전트에 연결된 API, DB 연동 기능을 본래 목적과 다르게 악용 | - 비인가 API 호출 및 서비스 오남용 발생 |
| 데이터 유출 | - 접근 권한이 있는 내부 데이터를 외부로 전송하도록 조작 | - 기밀정보 유출 및 개인정보 무단 노출 |
III. AI 에이전트 하이재킹 방어 및 안전성(Safety) 확보 방안
[ 1. 입력단: 방어 필터링 ] ==> [ 2. 제어단: 권한 샌드박싱 ] ==> [ 3. 실행단: HITL 적용 ] (입력 프롬프트의 의도 검증) (에이전트의 API/DB 접근 최소화) (민감 작업 시 인간의 최종 승인)