a16z 디파이 연구…AI 에이전트 샌드박스 우회

  • a16z 샌드박스서 AI 에이전트 탈출…디파이 익스플로잇 실험 중
  • 에이전트, 알케미 API 키 추출…노드 리셋해 통제 회피
  • AI, 취약점 발견…복잡한 공격 난항
Promo

인공지능(AI) 에이전트가 a16z 크립토 엔지니어가 구축한 샌드박스를 테스트 중에 이탈했습니다. 엔지니어들은 AI 에이전트가 취약점 식별을 넘어서 실제로 작동하는 익스플로잇을 만들 수 있는지 평가하고자 했습니다.

보안 엔지니어 대준 박과 매트 글리슨은 4월 28일에 그 결과를 발표했습니다. 이들은 범용 에이전트가 “명시적으로 전달받지 않은 도구”를 직접 활용하는 방법을 스스로 알아냈다고 강조했습니다.

후원
후원

이러한 결과는 일론 머스크가 ‘AI는 우리 모두를 죽일 수 있다’라는 충격적인 발언을 한 시점에 나왔습니다.

AI 에이전트가 어떻게 “우리”를 벗어났는지

엔지니어들은 에이전트를 제한된 환경에 두었으며, 이더스캔 접근을 제한하고, 특정 블록에 고정된 로컬 노드를 사용했습니다. 팀은 외부 네트워크 접근을 모두 차단했습니다.

이러한 샌드박스 설정은 에이전트가 미래 데이터를 검색하지 못하도록 특별히 설계되었습니다. 샌드박스 테스트 중에 에이전트는 소스코드가 없는 검증되지 않은 타겟 컨트랙트에서 한계에 부딪혔습니다.

X에서 최신 뉴스를 빠르게 받아보십시오

그 결과 에이전트는 “cast rpc anvil_nodeInfo” 명령으로 로컬 앤빌 노드 설정을 질의하여, 업스트림 RPC URL과 평문 알케미 API 키를 노출시켰습니다. 에이전트는 직접 외부 접근을 시도했으나 도커 방화벽이 이를 차단했습니다.

후원
후원

방화벽이 외부 접근을 차단한 후 에이전트는 “anvil_reset RPC method”를 활용하여 앤빌 노드를 미래 블록으로 초기화했습니다. 이를 통해 로컬 앤빌 노드를 통해 미래 블록 로그 및 트랜잭션을 질의할 수 있게 되었습니다.

이후 에이전트는 공격 트랜잭션의 실행 추적 데이터를 획득했습니다. 분석을 완료한 후 AI 에이전트는 노드를 원래 블록으로 되돌린 뒤, 추출된 데이터를 바탕으로 동작하는 개념증명(Proof-of-Concept)을 만들었습니다.

박과 글리슨은 이후 프록시를 모든 앤빌 디버그 메소드 차단으로 제한했습니다.

“소규모 샌드박스 환경에서 벌어진 일이지만, 툴을 사용하는 에이전트가 제약을 우회하여 목표를 달성하는 더 큰 패턴을 보여준다는 점에서 기록할 가치가 있습니다.” 팀이 밝혔습니다. “anvil_reset을 사용해 고정된 포크 블록을 우회한 행위는 우리가 예측하지 못한 행동이었습니다.”

이 사건은 AI 테스트 환경에서 발생할 수 있는 주요 위험성을 보여줍니다. 에이전트는 명확한 지시가 없어도 툴체인 내에 숨겨진 경로를 발견하고 익스플로잇할 수 있습니다.

그럼에도 불구하고 연구진은 AI 에이전트가 복잡한 디파이 공격을 실행하는 데에는 아직 한계가 있다고 판단했습니다. 에이전트는 지속적으로 취약점을 식별했으나, 다단계 공격 전략을 조립하는 데에는 어려움을 겪었습니다.

유튜브 채널을 구독하여 전문가 심층 분석을 시청하십시오


BeInCrypto의 최신 암호화폐 시장 분석을 보려면 여기를 클릭하세요.

부인 성명

비인크립토 웹사이트에 포함된 정보는 선의와 정보 제공의 목적을 위해 게시됩니다. 웹사이트 내 정보를 이용함에 따라 발생하는 책임은 전적으로 이용자에게 있습니다. 아울러, 일부 콘텐츠는 영어판 비인크립토 기사를 AI 번역한 기사입니다.

후원
후원