2026년 5월 11일 AI 뉴스 — Claude Code 명령어, GPT-Realtime-2, AI 에이전트 도구

Claude Code 실전 명령어 20선과 OpenAI GPT-Realtime-2 출시, 자라나는 AI 에이전트 GenericAgent, AI 코딩 비용 추적 CodeBurn 등 오늘의 AI 뉴스 8선.

오늘 AI 개발 생태계의 핵심 흐름은 두 가지로 요약됩니다. 첫째, 코딩 에이전트를 더 똑똑하고 안전하게 부리기 위한 도구와 가이드가 쏟아지고 있습니다. 둘째, OpenAI가 음성 AI 스택을 한 단계 끌어올리며 실시간 음성 에이전트 시대를 본격 열고 있습니다.

GenericAgent — 3,000줄짜리 시드로 스스로 자라는 에이전트

lsdefine이 공개한 GenericAgent는 약 3,000줄 코어 코드만으로 LLM에게 시스템 수준 제어 권한을 부여하는 미니멀한 자율 에이전트 프레임워크입니다. 브라우저 자동화, 터미널, 파일 조작, 키보드·마우스 입력, 화면 인식, ADB를 통한 모바일 제어까지 한 번에 다룹니다.

차별점은 "스킬 트리"입니다. 에이전트가 작업을 성공적으로 수행할 때마다 실행 경로를 재사용 가능한 스킬로 자동 저장하고, L0(핵심 행동 규칙)부터 L4(장기 학습 세션 기록)까지 5단계 메모리에 누적합니다. 오래 쓸수록 사용자만의 스킬 트리가 자라난다는 컨셉입니다.

토큰 효율도 눈에 띕니다. 컨텍스트 윈도우당 30,000 토큰 이하로 운용해 경쟁 프레임워크 대비 6배 적은 토큰으로 같은 작업을 수행한다고 주장합니다.

원문 보기

알아두면 좋은 Claude Code 명령어 20선

Reddit r/ClaudeCode 커뮤니티에서 정리한 "실제로 쓸 만한 Claude Code 명령어 20개" 글이 화제입니다. 단순 문서가 아니라 매일 쓰는 워크플로우에 직접 꽂아넣을 수 있는 실전 모음입니다.

대표적으로 `/rewind`(코드·대화 되돌리기 메뉴), `/btw`(메인 스레드 오염 없이 곁가지 질문, 프롬프트 캐시 재사용으로 토큰 비용 거의 0), `/branch`(대화 포크해서 두 접근을 병렬 실행), `/compact`(긴 히스토리를 요약으로 압축), `/model opusplan`(Opus로 설계, Sonnet으로 실행), `/simplify`(아키텍처·품질·효율 3종 리뷰어 병렬 호출), `/loop 15m`(세션 내 재발 작업 스케줄) 등이 포함됩니다.

키보드 단축키 측면에서는 Ctrl+V 스크린샷 직접 붙여넣기, Ctrl+R 프롬프트 히스토리 검색, `/insights`로 로컬 HTML 사용 리포트 생성이 특히 유용합니다.

원문 보기

잘 만든 CLAUDE.md 모아 보기

같은 커뮤니티에서 "다른 사람들이 실제로 쓰는 CLAUDE.md를 모아 보자"는 스레드가 활발하게 운영되고 있습니다. 언어, 작업 영역(백엔드/프론트엔드/모바일), 도메인별로 잘 작동하는 CLAUDE.md 설정을 공유받아 자기 프로젝트 템플릿의 시작점으로 삼을 수 있습니다.

CLAUDE.md는 Claude Code의 동작을 코드 베이스마다 미세 조정하는 핵심 파일입니다. 잘 짜인 예시를 보고 깎아 쓰는 것이 처음부터 만드는 것보다 훨씬 빠릅니다.

원문 보기

Simon Willison — Claude Code 출력은 마크다운보다 HTML

Simon Willison이 그동안의 기본 가정을 뒤집는 글을 올렸습니다. 토큰이 비싸던 GPT-4 시절에는 마크다운이 합리적인 출력 포맷이었지만, 최신 Claude에서는 HTML이 훨씬 강력하다는 주장입니다.

HTML로 출력하면 SVG 다이어그램, 인터랙티브 위젯, 페이지 내 네비게이션, 색상 코딩 등을 그대로 활용할 수 있습니다. 그가 든 두 가지 예시는 PR 리뷰 결과를 인라인 코드 주석·심각도 색상·렌더된 diff로 표현한 아티팩트, 그리고 Linux 취약점 분석을 다크 테마·번호 매긴 단계·비교 테이블로 정리한 HTML 페이지입니다.

복잡한 기술 설명을 정적 문서가 아니라 인터랙티브한 교재로 받아 보고 싶다면 다음 프롬프트부터 출력 포맷을 HTML 아티팩트로 지정해 보세요.

원문 보기

OpenAI — Codex를 안전하게 운영하는 법

OpenAI가 사내에서 Codex 에이전트를 어떻게 안전하게 운영하는지 공개했습니다. 핵심은 "샌드박스가 기술적 실행 경계를 정의하고, 승인 정책이 언제 에이전트가 사람에게 물어봐야 하는지를 정의한다"는 분리입니다.

관리되는 네트워크 정책은 예상 가능한 목적지는 허용하고, 막아야 할 곳은 차단하며, 익숙하지 않은 도메인은 승인을 요구합니다. 평소 엔지니어가 쓰는 양성 명령어는 승인 없이 통과시키되 위험한 명령어는 차단하거나 명시적 승인을 받게 합니다.

특히 강조한 것은 에이전트 네이티브 텔레메트리입니다. 에이전트가 무엇을 했는지 사후에 감사할 수 있어야 안전한 배포가 가능하다는 관점으로, 사내에 도입을 고민하는 팀에 그대로 참고할 만한 레퍼런스입니다.

원문 보기

OpenAI — 실시간 음성 AI 모델 3종 동시 출시

OpenAI가 5월 7일 음성 API를 대대적으로 업데이트하며 세 가지 모델을 동시에 공개했습니다. GPT-Realtime-2는 GPT-5급 추론 능력을 가진 첫 음성 모델로, 단순 응답을 넘어 어려운 요청을 처리하고 대화 흐름을 자연스럽게 끌어갑니다. GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 통역하며, GPT-Realtime-Whisper는 말하는 동안 라이브 스트리밍 STT를 제공합니다.

가격은 GPT-Realtime-2가 100만 입력 토큰당 $32(캐시는 $0.40), 출력 $64이며, Translate는 분당 $0.034, Whisper는 분당 $0.017입니다. 단순 콜·앤·리스폰스에서 듣고·추론하고·통역하고·기록하며·행동까지 하는 음성 인터페이스로 한 단계 진화한 것이 핵심입니다.

원문 보기

CodeBurn — 18종 AI 코딩 도구 토큰·비용 추적 TUI

여러 AI 코딩 도구를 동시에 굴리다 보면 어디서 돈이 새는지 추적이 어렵습니다. CodeBurn은 Claude Code, Claude Desktop, Codex, Cursor, cursor-agent, Gemini CLI, GitHub Copilot, Kiro, OpenCode, Roo Code, Qwen, Goose 등 18개 이상의 AI 코딩 도구의 세션 데이터를 디스크에서 직접 읽어 토큰 사용량과 비용을 한 대시보드에서 보여 줍니다.

API 키도, 프록시 서버도 필요 없고 전부 로컬에서 동작합니다. 일별 비용 차트를 프로젝트와 모델 단위로 쪼개 보여 주고, 13가지 작업 카테고리 분류, 재시도 없이 성공한 편집 비율을 측정하는 one-shot rate, Today/7일/30일/월간/6개월 기간 전환, 모델 비교 모드, 낭비 패턴을 잡아내는 Optimize 모드까지 제공합니다.

원문 보기

Camofox Browser — AI 에이전트용 스텔스 헤드리스 브라우저

Playwright나 Puppeteer로 짠 자동화가 Google·Cloudflare 봇 탐지에 자주 막힌다면, Camofox Browser가 대안이 될 수 있습니다. Firefox 기반 Camoufox를 C++ 구현 수준에서 패치해 JavaScript 실행 이전에 `navigator.hardwareConcurrency`, WebGL 렌더러, AudioContext, 화면 좌표, WebRTC 등의 핑거프린팅 벡터를 모두 스푸핑합니다.

AI 에이전트 친화 기능도 풍부합니다. 원본 HTML 대비 약 90% 작은 접근성 스냅샷, 안정적인 엘리먼트 ref(`e1`, `e2`...), 주요 사이트용 검색 매크로, YouTube 자막 추출, 세션 격리, 쿠키 임포트, 자동 지오로케이션을 반영한 프록시 라우팅이 기본 제공됩니다. 유휴 시 약 40MB 메모리만 쓰기 때문에 라즈베리 파이나 $5 VPS에도 함께 띄울 수 있습니다.

원문 보기

---

나무숲에서는 이런 AI 도구·트렌드를 매일 큐레이션해 한국어와 영어로 공유합니다. 매일 아침 받아 보고 싶다면 매일 AI News 오픈채팅에 참여하세요. 직접 AI 에이전트나 자동화를 도입하고 싶다면 나무숲의 Agentic AI 서비스를 살펴보세요.