2026년 5월 18일 AI 뉴스 — SANA-WM, DeerFlow 2.0, GAN형 에이전트 하네스

NVIDIA가 1분 720p 영상 월드 모델 SANA-WM을, OpenAI가 Codex Windows 샌드박스를 공개. ByteDance DeerFlow 2.0, 과학 에이전트 스킬 135종, GAN형 하네스 재현 후기까지 정리.

# 2026년 5월 18일 AI 뉴스 — SANA-WM, DeerFlow 2.0, GAN형 에이전트 하네스

오늘은 모델·프레임워크·도구가 동시에 풀린 날이다. NVIDIA가 단일 GPU로 1분짜리 720p 영상을 만드는 오픈소스 월드 모델 SANA-WM을 공개했고, OpenAI는 Codex의 Windows 샌드박스 보안 설계를 상세히 풀었다. ByteDance는 장기 실행 슈퍼 에이전트 하네스 DeerFlow 2.0을, K-Dense AI는 과학 연구용 에이전트 스킬 135종을 오픈소스로 풀었다. 한편 Anthropic의 Generator-Evaluator 하네스를 직접 재현한 사례와, 폰만으로 사이드 프로젝트를 바이브 코딩하는 시니어의 운영 룰도 같이 본다.

NVIDIA SANA-WM — 단일 GPU로 1분 720p 영상 월드 모델

NVIDIA가 26억 파라미터 오픈소스 월드 모델 SANA-WM을 공개했다. 단일 이미지와 카메라 궤적을 입력받아 60초 분량의 720p 영상을 생성한다. 카메라는 메트릭 스케일 6-DoF로 제어된다. 단일 GPU에서 분 단위 영상을 만든다는 점이 핵심이고, VBench Overall 점수는 Simple/Hard 80.62/81.89로 경쟁 모델 LingBot-World(81.82/81.89)에 근접한다.

처리량 차이는 더 크다. 8장의 H100 위에서 시간당 22개 영상을 만든다 — LingBot-World의 0.6 vs 22.0으로 36배 격차다. 학습 자체도 효율적이다. 6,400만 시간 H100 학습 같은 헤비함 없이, 64장 H100에서 18.5일, 공개 영상 클립 21만 개로 끝낸다. 효율의 비밀은 Gated DeltaNet + Softmax 하이브리드 어텐션 — 영상 길이와 무관하게 recurrent state가 D×D 고정 크기로 유지돼, 일반 softmax 어텐션이 분 단위에서 막히는 메모리 폭발을 회피한다. Apache 2.0으로 가중치·코드 모두 공개됐다.

원문: https://nvlabs.github.io/Sana/WM/

OpenAI Codex on Windows — 샌드박스 보안 설계 공개

OpenAI가 Codex를 Windows에서 안전하게 돌리기 위한 샌드박스 아키텍처를 상세히 공개했다. Codex는 단일 앱이 아니라 셸, Git, Python, 패키지 매니저, 빌드 도구 등 에이전트가 필요로 하는 모든 바이너리를 돌리는 오픈엔드 환경이다. 그래서 AppContainer, Windows Sandbox, MIC 라벨링 같은 기존 솔루션은 하나씩 다 부족했다. 데모용이 아니라 실제 개발 도구가 작동하면서도 통제되는 경계가 필요했다.

OpenAI가 선택한 경로는 SID(Security Identifier)와 write-restricted 토큰 조합이다. 실제 유저가 아닌 합성 SID를 만들어 ACL에 등록해 파일 단위 접근 통제를 한다. 네트워크는 환경 변수나 Git proxy 설정만으로는 새는 문제(프로세스가 직접 소켓을 열 수 있음)가 드러나, 방어를 Windows 방화벽 레이어로 더 깊이 내렸다. 최종 형태인 elevated sandbox는 별도의 저권한 sandbox 사용자, 파일시스템 권한 경계, 방화벽 규칙, 로컬 정책 변경을 조합한다. 자체 에이전트 런타임을 만들고 있는 팀에게는 직접 참고할 만한 설계 노트다.

원문: https://openai.com/index/building-codex-windows-sandbox

ByteDance DeerFlow 2.0 — 장기 실행 슈퍼 에이전트 하네스

ByteDance가 오픈소스 멀티 에이전트 프레임워크 DeerFlow 2.0을 발표했다. 1.0에서 처음부터 다시 쓴 "슈퍼 에이전트 하네스"로, 분 단위에서 시간 단위까지 이어지는 작업 — 딥 리서치, 코드 생성, 콘텐츠 제작, 데이터 파이프라인 자동화 — 을 목표로 한다. 여러 서브 에이전트가 각자 격리된 컨텍스트에서 병렬로 돌고, 장기 메모리는 사용자 선호를 세션 너머로 학습하며, 컨테이너 샌드박스가 단순 툴콜이 아닌 실제 파일시스템 접근을 에이전트에게 제공한다.

기본 스킬로 리서치, 리포트, 슬라이드 작성, 웹 콘텐츠 생성이 들어가고, MCP 서버와 자체 파이썬 툴을 그대로 연결할 수 있다. Docker·Kubernetes·로컬 환경에 모두 배포 가능하고, 점진적 스킬 로딩으로 토큰 효율을 유지한다. 오케스트레이션 프레임워크를 자체 구축 중이거나 OpenAI Swarm·LangGraph·CrewAI를 비교 검토 중인 팀이라면 적합한 후보다.

원문: https://github.com/bytedance/deer-flow

scientific-agent-skills — 과학 연구용 에이전트 스킬 135종

K-Dense AI가 AI 코딩 에이전트를 연구 보조로 변환하는 사전 빌드 스킬 모음 135종을 오픈소스로 공개했다. 영역은 광범위하다 — 바이오인포매틱스·유전체학, 케모인포매틱스·신약 개발, 임상 연구·정밀의학, 재료과학, 엔지니어링, 과학 커뮤니케이션을 모두 다룬다. 단순 프롬프트 묶음이 아니라, 100개 이상의 과학 데이터베이스와 전문 파이썬 패키지를 호출하는 멀티 스텝 워크플로우다.

가상 신약 스크리닝, 유전체 분석, 임상 변이 해석 같은 작업이 즉시 실행 가능한 형태로 들어 있다. 연구자·과학자·엔지니어가 API 문서 파헤치는 시간 없이 계산 워크플로우를 가속하는 게 목표다. Claude Code나 자체 에이전트에 그대로 얹어 시작할 수 있어, AI 에이전트를 연구실에 도입하려는 팀의 출발점으로 좋다.

원문: https://github.com/K-Dense-AI/scientific-agent-skills

LTX 2.3 Studio — 무료 브라우저 영상 생성

Lightricks의 LTX 2.3 비디오 모델을 Hugging Face Space에서 무료로 돌릴 수 있는 LTX 2.3 Studio가 공개됐다. Hugging Face Zero GPU 인프라 위에서 동작하며 누적 98 좋아요로 빠르게 입소문이 도는 중이다. 로컬 환경 없이 텍스트로 영상을 만들어 보고 싶다면 즉시 시도해볼 만하다.

LTX 시리즈는 추론 속도와 품질 균형으로 평이 좋은 모델이라, 광고용 짧은 클립이나 사이드 프로젝트 데모 만들기에 합리적이다. 같은 흐름에서 NVIDIA SANA-WM과 함께 보면 — 한쪽은 영상 길이(분 단위), 다른 쪽은 인터랙티브 텍스트→영상의 접근성을 풀고 있다.

원문: https://huggingface.co/spaces/techfreakworm/LTX2.3-Studio

구글 IDE의 역사 — Cider V가 엔지니어 80%를 차지하기까지

구글 내부 개발자 도구의 진화 기록이다. 한동안 구글 엔지니어들은 파편화된 IDE를 각자 골라 썼지만, 2013년경 클라우드 기반 에디터 Cider가 등장하면서 정리되기 시작했다. Cider는 VS Code 프런트엔드에 구글의 강력한 인덱싱 백엔드를 결합한 Cider V로 진화했고, 2023년 기준 구글 내부 개발의 약 80%를 차지하게 됐다.

표준화된 도구 생태계는 내부 익스텐션 개발을 끌어오는 동시에, 스마트 코드 완성, 컨텍스트 인지 붙여넣기 같은 AI 기반 기능을 자연스럽게 통합할 수 있게 만들었다. 대규모 모노레포에서 단일 클라우드 IDE + AI 코파일럿 조합이 어떻게 수렴되는지 보여주는 케이스다. 자체 사내 개발 환경을 설계 중인 큰 조직이라면 참고할 만한 진화 경로다.

원문: https://laurent.le-brun.eu/blog/a-history-of-ides-at-google

Anthropic GAN형 Generator-Evaluator 하네스, 실전 재현 후기

Anthropic이 2026년 3월 공개한 Generator-Evaluator 하네스를 한 개발자가 직접 재현해 웹사이트를 12번의 적대적 반복으로 빌드한 후기다. 구조는 GAN에서 영감을 받았다 — Generator 에이전트가 코드·디자인·기능을 만들고, 별도의 Evaluator 에이전트가 엄격한 기준으로 회의적으로 비판한다. Evaluator의 피드백이 다음 반복의 Generator 입력이 된다. 본 연구에서는 5~15회 반복, 최대 4시간까지 돌면서 시각적 차별성과 기능적 정확성을 결합한 결과물을 낸다.

핵심 통찰은 AI 모델이 본질적으로 자기 비판에 약하다는 점이다 — 모델은 자기 결과를 후하게 평가하는 경향이 있어 mediocre한 결과로 수렴한다. 따라서 자기 비판을 잘하는 generator를 만드는 것보다, 회의적으로 튜닝된 별도 evaluator를 만드는 게 훨씬 다루기 쉽다. 본 재현 사례에서는 10번째 사이클에서 시스템이 접근 자체를 뒤집어, 사이트를 3D 공간 경험(CSS perspective로 렌더링된 체크무늬 바닥, 벽에 걸린 아트워크, 갤러리 룸 간 도어 네비게이션)으로 재구상했다. 최종은 planner + generator + evaluator 3 에이전트 아키텍처로 정착한다.

원문: https://reddit.com/r/ClaudeAI/comments/1tf76wp/i_replicated_anthropics_generatorevaluator/

폰으로만 사이드 프로젝트를 바이브 코딩하는 시니어 엔지니어의 룰

10년 차 소프트웨어 엔지니어가 사이드 프로젝트를 전부 폰으로만 바이브 코딩한 경험과 운영 룰을 공유했다. 코드는 거의 읽지 않고, 결과 행동만 보고 검증한다. 핵심은 출발점을 plan mode로 잡고 — AI가 만든 계획을 먼저 읽고 합의한 다음 실행으로 넘기는 흐름이다. 즉, "코드 작성"이 아니라 "방향 설정"에 시간을 쓴다.

Reddit 분석 글들이 정리한 공통 패턴과 일치한다. 시니어들은 AI 도구로 40~50% 생산성 향상을 보고하는 한편, 대다수 팀은 low-to-medium vibe 모드(AI가 초안을 짜고 사람이 아키텍처·테스트를 깊이 리뷰)에 머문다. 본 사례는 high vibe 모드의 극단 — 폰 + AI만으로 사이드 프로젝트가 돌아간다는 증언이다. 프로토타이핑 방법론으로 vibe coding을 도입하려는 팀에게 참고할 만한 실전 사례다.

원문: https://reddit.com/r/vibecoding/comments/1tf7dan/im_a_software_engineer_with_a_decade_of/

---

월드 모델, 에이전트 하네스, 도메인 스킬, 그리고 IDE 진화까지 — AI 도구가 모델 레이어를 넘어 운영·환경 레이어로 확산되는 흐름이 명확하다. 특히 Anthropic의 GAN형 하네스가 외부에서 재현되기 시작한 점은, 에이전트 설계 패턴이 점차 표준화되고 있다는 신호다.

나무숲은 매일 아침 이런 AI 흐름을 정리해 한국 개발자에게 전달한다. 매일 받아보고 싶다면 TreeSoop 블로그를 구독해 두면 된다.