문1) AI 에이전트 하이재킹 문제

답)

I. 실행 권한 탈취를 통한 실질적 위협, AI 에이전트 하이재킹의 개요

구분 주요 내용
정의 악의적 프롬프트 주입 등을 통해 AI 에이전트의 의사결정 흐름을 왜곡하여, 의도치 않은 비정상적 행동을 실행하게 만드는 공격 기법
위험성 • 외부 도구 권한 악용
• 금전거래 피해 발생
• 민감 데이터 유출
• 물리 행위 오작동

II. AI 에이전트 하이재킹의 공격 메커니즘 및 주요 공격 유형

가) AI 에이전트 하이재킹의 공격 메커니즘


                  [     공격자     ]
                            │ ① 악성 프롬프트 주입
                            ▼

+----------------------------------------------------+ | AI 에이전트 | | - 판단 왜곡 ➔ 정상 로직 우회 ➔ 악성 Tool 선택 | +----------------------------------------------------+ │ (② 가로챈 권한으로 악성 행위 실행) ▼ [ 외부 도구 (Tools/APIs) ] ──▶ (③ 결과: DB 유출, 권한 탈취, 결제 승인)


나) AI 에이전트 하이재킹 3대 공격 유형

공격 유형 핵심 공격 방식 피해 발생 예시
프롬프트 주입 - 시스템의 기존 지시를 무시하고 새로운 악성 명령 실행 유도 - 보안 정책 우회 및 시스템 오동작 유발
도구 오용/조작 - 에이전트에 연결된 API, DB 연동 기능을 본래 목적과 다르게 악용 - 비인가 API 호출 및 서비스 오남용 발생
데이터 유출 - 접근 권한이 있는 내부 데이터를 외부로 전송하도록 조작 - 기밀정보 유출 및 개인정보 무단 노출

III. AI 에이전트 하이재킹 방어 및 안전성(Safety) 확보 방안

[ 1. 입력단: 방어 필터링 ] ==> [ 2. 제어단: 권한 샌드박싱 ] ==> [ 3. 실행단: HITL 적용 ] (입력 프롬프트의 의도 검증) (에이전트의 API/DB 접근 최소화) (민감 작업 시 인간의 최종 승인)