2026년 5월 25일 AI 뉴스 — Brockman 회고·Anthropic 플러그인·Vercel Zero

Greg Brockman의 OpenAI 위기 회고, Anthropic 지식노동자용 Claude 플러그인, Vercel Labs의 에이전트 언어 Zero, cmux 터미널, AI 코딩 측정·복리 성장·헤드리스 SW, Claude Mythos 취약점 1만 개.

오늘의 AI 뉴스 8선. Greg Brockman이 Sam Altman 해임 후 72시간을 직접 회고하며 "Phoenix"라는 백업 회사까지 설계했던 내막을 공개했다. Anthropic은 영업·법무·재무·바이오리서치까지 11개 직군용 Claude 플러그인을 한꺼번에 오픈소스로 풀었고, Vercel Labs는 에이전트가 1차 사용자인 실험 언어 Zero를 발표했다. cmux는 멀티 에이전트 알림 문제를 해결하는 macOS 터미널이고, third-bit·eugeneyan·a16z는 측정·성장·SaaS 해자 관점에서 지금 일하는 방식을 다시 짠다. 마지막으로 Anthropic Glasswing은 한 달 만에 1만 개 취약점을 찾고 "이제 병목은 발견이 아니라 패치"라는 새 현실을 데이터로 보여줬다.

Greg Brockman 회고 — OpenAI를 흔든 72시간

OpenAI 공동 창업자 Greg Brockman이 The Knowledge Project 팟캐스트에서 Sam Altman 해임 직후 72시간을 1인칭으로 풀어냈다. 같은 날 본인도 사임했고, Sam의 집에서 "Phoenix"라는 백업 회사를 즉석에서 설계했으며, 결국 Ilya Sutskever의 트윗 한 줄이 사태의 변곡점이 됐다는 구체적인 흐름이 나온다. Napa 오프사이트에서 OpenAI가 10년간 따라온 3단계 기술 로드맵이 만들어진 배경, 순수 비영리 구조를 포기해야 했던 이유까지 함께 다룬다.

기술 쪽 발언도 흥미롭다. OpenAI 내부에서 AI가 쓰지 않은 코드 비중이 얼마냐는 질문에 Brockman은 "AI가 *안* 쓴 부분을 추정하는 게 더 어렵다"고 답했고, 추론 트레이스 노출을 왜 중단했는지, AGI 시대에 컴퓨트가 제한 자원이 될 때 어떤 일이 벌어질지, 글로벌 AI 경쟁은 정말 일어나고 있는지까지 폭넓게 짚는다.

원문: https://fs.blog/knowledge-project-podcast/greg-brockman/

Anthropic, 지식노동자용 Claude 플러그인 11종 일괄 공개

Anthropic이 `anthropics/knowledge-work-plugins` 레포를 새로 공개했다. Claude Cowork와 Claude Code 모두에서 동작하는 플러그인 11종이 한꺼번에 들어 있다: Productivity, Sales, Customer Support, Product Management, Marketing, Legal, Finance, Data, Enterprise Search, Bio-Research, 그리고 플러그인을 직접 만들고 관리하기 위한 Cowork Plugin Management.

각 플러그인은 마크다운과 JSON 파일만으로 구성되어 코딩 없이 회사 맥락에 맞게 고칠 수 있고, 필요할 때 자동으로 활성화되는 스킬과 `/sales:call-prep`·`/finance:reconciliation` 같은 명시적 슬래시 커맨드를 함께 제공한다. Claude Code 사용자는 한 줄로 마켓플레이스를 추가한 뒤 원하는 플러그인만 골라 설치하면 된다.

```bash

claude plugin marketplace add anthropics/knowledge-work-plugins

claude plugin install sales@knowledge-work-plugins

```

원문: https://github.com/anthropics/knowledge-work-plugins

cmux — 멀티 에이전트 알림 문제를 푸는 macOS 터미널

manaflow-ai의 cmux는 Ghostty 위에 AI 코딩 에이전트 운영용 기능을 얹은 네이티브 macOS 터미널(Swift/AppKit 기반)이다. 만든 동기가 명확하다: "Claude Code 알림 본문이 항상 'Claude is waiting for your input'뿐이라 탭이 늘어나면 어느 세션이 멈춰 있는지 알 수가 없었다."

해법으로 cmux는 에이전트가 입력을 기다릴 때 패널에 파란 링이 뜨고 탭이 하이라이트되며, 별도 알림 패널에 대기 중인 작업이 모인다. 사이드바는 git 브랜치, PR 상태, 작업 디렉터리, 열린 포트, 마지막 알림 텍스트까지 워크스페이스별로 보여준다. 인앱 브라우저, 스크립트 가능한 자동화 API, 원격 SSH 워크스페이스, Claude Code 팀 모드(tmux 없이) 같은 기능도 함께 들어 있어, 사실상 "여러 에이전트를 사람처럼 모니터링하는 데스크톱"에 가깝다.

원문: https://github.com/manaflow-ai/cmux

Vercel Labs, 에이전트가 1차 사용자인 실험 언어 'Zero'

Vercel Labs가 발표한 Zero는 "에이전트가 1일차부터 주 사용자라면 언어는 어떻게 생겨야 하는가"라는 질문을 정면으로 던지는 실험 프로젝트다. 규칙적이고 작은 문법, 특수 케이스 최소화, 컴파일러가 "다음 수정 위치"를 가리키는 에러 메시지, 그리고 자가 수리(self-repair) 루프를 위한 구조화된 진단 출력이 핵심 디자인 결정이다.

표준 라이브러리를 최대한 풍부하게 만들어 패키지 선택 부담을 줄였고, 외부 세계와의 상호작용은 항상 명시적으로 드러나야 한다. 코드는 다음과 같이 생겼다.

```

fn answer i32

ret + 40 2

pub fn main Void world World !

if == answer() 42

check world.out.write "math works\n"

```

아직 Pre-1 단계로 프로덕션에 쓸 단계는 아니고, 격리된 환경에서 실험용으로만 쓰라고 명시돼 있다. 그래도 "에이전트가 일하기 좋은 코드"라는 새 디자인 축을 본격적으로 제시한 첫 번째 언어 실험 중 하나라는 점에서 충분히 지켜볼 만하다.

원문: https://zerolang.ai/

AI 코딩 생산성 측정의 12가지 함정

Greg Wilson이 third-bit에 정리한 글로, AI 코딩 도구의 효과를 측정할 때 자주 빠지는 12가지 함정을 짚는다. 코드 라인 수(verbosity일 뿐), 인위적 실험실 과제(예: "Copilot으로 55% 빨라졌다"가 실제 코드베이스에서 재현되지 않는 이유), 대조군 없는 before/after, 자가 보고 만족도(호손 효과·신기 효과·사회적 바람직성 편향), 커밋·PR·티켓 카운트(Goodhart의 법칙), 리뷰·디버깅·보안 부채를 빼고 "쉬운 절반"만 재기, 도입률을 성공으로 착각하기, 자원자 vs 비자원자 비교(선택 편향), 시스템이 아닌 개인 단위 측정, 신기 효과 기간 중 측정, 수락률을 품질 신호로 보기(시간 압박 아래선 안전하지 않은 제안도 수락된다), 그리고 AI를 기존 도구(문서·동료)가 아닌 "아무것도 없음"과 비교하기.

핵심 결론: 제대로 측정하려면 대조군, 장기 추적, 시스템 전체 측정이 필수다. 새 도구 도입 ROI를 묻는 위치라면 한 번은 꼭 읽어야 할 체크리스트다.

원문: https://third-bit.com/2026/05/20/twelve-ways-to-be-wrong/

복리처럼 AI와 함께 성장하는 법 — eugeneyan의 5가지 원칙

Eugene Yan이 정리한 프레임워크의 5가지 핵심은 "좋은 컨텍스트 제공, 취향을 설정으로 인코딩, 검증을 쉽게 만들기, 더 큰 작업을 위임, 루프 닫기"다. 구체 실행 방법이 잘 정돈돼 있다.

INDEX.md: 관련 문서들의 주석 달린 디렉터리. URL, 담당자, 한 문단 설명을 붙여 모델이 모든 링크를 일일이 열면서 토큰을 낭비하지 않도록 한다.
CLAUDE.md 다층 구조: 전역(`~/.claude/CLAUDE.md`)에는 행동 선호·교수 스타일·장기 목표, 레포 단위에는 린팅·네이밍·PR 표준, 프로젝트 단위에는 디렉터리 레이아웃·도메인 지식. 모델이 디렉터리 트리를 타고 올라가며 필요한 CLAUDE.md를 로드한다.
가이드와 스킬: 도메인별 가이드는 lazy하게 로드하고, `/polish`·`/write`·`/daily` 같은 스킬은 트리거 + 절차를 마크다운으로 정의한다. 중요한 건 스킬을 파일을 직접 고쳐서 다듬지 않고, 세션 트랜스크립트에서 반복되는 교정 패턴을 모아서 다듬는다는 점이다.
위임의 진화: 짧은 작업을 페어로 같이 하는 단계에서, 성공 기준을 미리 명시하고 완성된 목표 자체를 위임하는 단계로 옮겨간다. 병렬 세션을 굴리려면 사양과 빠른 리뷰 사이클이 핵심 — "중간 단계가 비어가는 중"이라는 진단이 인상적이다.

원문: https://eugeneyan.com/writing/working-with-ai/

a16z: 소프트웨어가 헤드리스로 가는가

a16z의 Seema Amble이 쓴 새 에세이의 주장은 분명하다. 에이전트가 UI를 우회해 데이터에 직접 접근하기 시작하면, UI와 사용자 근육 기억에 뿌리내린 전통적 SaaS 해자는 빠르게 깎인다. "에이전트는 UI와 상호작용할 필요 없이 record-of-truth 시스템의 데이터에 접근한다." 그러면 가치는 어디로 가는가.

Amble이 꼽은 새 해자는 여섯 가지다: 에이전트가 안전하게 행동하기 위해 필요한 운영 로직과 워크플로 규칙, 제품 사용을 통해서만 생성되는 독점 데이터, 에이전트 권한·승인 인프라, 물류·현장 서비스·결제 같은 실세계 실행 레이어, 반복 거래를 매개하는 멀티파티 네트워크 효과, 그리고 DIY를 단념시키는 기술적 복잡도. SaaS 창업자에게 시사점은 분명하다 — 사람의 작업을 로깅하는 도구가 아니라, 추론·행동·결과 자체를 포착하는 AI-네이티브 시스템을 만드는 쪽으로 기회가 옮겨간다. 특히 실세계 실행과 기술적으로 복잡한 바이어가 동시에 걸리는 버티컬 SW가 가장 강한 포지션이다.

원문: https://www.a16z.news/p/is-software-losing-its-head

Claude Mythos, 한 달 만에 취약점 1만 개 발견 — 이제 병목은 패치

Anthropic의 Project Glasswing이 첫 업데이트를 공개했다. ~50개 파트너 조직이 Claude Mythos Preview를 한 달간 돌린 결과, high·critical 등급 취약점 1만 개 이상이 새로 발견됐다. 숫자가 구체적이다.

Cloudflare: 2,000개 버그 발견, 그 중 400개가 high/critical. 오탐률이 사람보다 낮았다.
Mozilla: Firefox 150에서 271개 취약점 발견 — Firefox 148 대비 10배 이상.
오픈소스: 1,000개 이상 프로젝트에서 high/critical 6,202개 추정.

대상은 인터넷 핵심 인프라급 코드들 — wolfSSL 같은 암호 라이브러리, 다양한 금융·정부 시스템 등이다. 그런데 진짜 새 현실은 다음 문장이다. "이제 병목은 발견이 아니라 패치다." Mythos가 찾은 high/critical 버그를 패치하는 데 평균 2주가 걸리고, 530개 공개된 버그 중 75개만 패치된 상태다. AI가 만들어내는 버그 리포트의 양이 메인테이너 처리 능력을 넘어서기 시작했다는 뜻 — 보안 운영 방식 자체를 다시 짜야 할 시점이다.

원문: https://www.anthropic.com/research/glasswing-initial-update

---

매일 아침 AI 뉴스를 자동 큐레이션해 보내는 이 시스템은 나무숲이 만들고 있다. AI 자동화·에이전트 시스템 구축이 필요하다면 상담을 신청해보자.