2026년 5월 7일 AI 뉴스 — Cloudflare 에이전트 결제, Gemma 4 3배 가속, GPT-5.5 Instant

Cloudflare 에이전트가 Stripe와 함께 계정·도메인을 자율 결제로 만들고, Gemma 4 추론이 최대 3배 빨라지며, GPT-5.5 Instant가 ChatGPT 기본 모델이 됐다.

오늘은 에이전트가 인프라 회사의 결제·계정·배포까지 직접 손댈 수 있게 된 발표가 가장 무겁다. Cloudflare는 Stripe와 함께 에이전트가 계정을 만들고 도메인을 사고 API 토큰을 받는 표준을 공개했고, Google은 Gemma 4 추론을 최대 3배 빠르게 만드는 Multi-Token Prediction 드래프터를 풀었으며, OpenAI는 GPT-5.5 Instant를 ChatGPT 기본 모델로 밀었다. 코딩 에이전트 쪽도 addyosmani의 agent-skills, ByteDance의 deer-flow, 무료 LLM API 모음집 같은 실무 자산이 한꺼번에 쏟아졌다.

Cloudflare 에이전트가 계정 만들고 도메인 사고 배포까지 — Stripe와 공동 설계한 결제 프로토콜

Cloudflare가 Stripe와 함께 에이전트가 사람 개입 없이 Cloudflare 계정을 만들고 유료 구독을 시작하고 도메인을 등록한 뒤 API 토큰을 받아 바로 배포까지 할 수 있는 워크플로우를 공개했다. 사람은 이용약관 동의만 하고, 그 뒤로는 에이전트가 다 진행한다. 기본 지출 상한은 $100/월이고 조정 가능하다.

핵심은 세 단계다. Discovery는 에이전트가 REST API 카탈로그로 사용 가능한 Cloudflare 서비스를 사전 지식 없이 찾는 단계다. Authorization은 Stripe가 사용자 신원을 보증해 Cloudflare가 계정을 즉석에서 만들거나 OAuth로 기존 계정에 연결하는 단계다. Payment는 Stripe가 결제 토큰을 Cloudflare에 넘겨 에이전트가 카드 원본 데이터를 직접 만지지 않으면서도 정해진 예산 안에서 결제할 수 있게 한다.

이 프로토콜은 Cloudflare-Stripe 단독이 아니라 다른 플랫폼이 따라 쓸 수 있도록 공동 설계됐다고 명시했다. 즉, "에이전트가 계정 없이 우리 서비스를 쓸 수 있게 한다"는 패턴이 한 회사 사례에서 표준 인터페이스로 넘어가는 첫 신호다.

원문: https://blog.cloudflare.com/agents-stripe-projects/

Gemma 4 추론을 최대 3배 빠르게 — Google이 푼 Multi-Token Prediction 드래프터

Google이 Gemma 4 추론을 최대 3배 가속하는 Multi-Token Prediction(MTP) 드래프터를 공개했다. 출력 품질이나 추론 로직을 떨어뜨리지 않고 토큰/초 처리량만 끌어올리는 게 목표다.

원리는 speculative decoding이다. 가벼운 드래프터 모델이 메인 Gemma 4가 한 토큰을 만드는 시간 안에 여러 미래 토큰을 미리 예측하고, 메인 모델이 그것을 한 번에 병렬로 검증한다. 검증이 통과되면 그 시퀀스 전체에 추가 한 토큰을 더해 한 forward pass로 여러 토큰이 나온다. LLM 추론이 메모리 대역폭에 묶여 연산 자원이 놀고 있다는 점을 정조준한 설계다.

배포 측면은 친절하다. Hugging Face Transformers, vLLM, MLX, Ollama에서 바로 쓸 수 있고 Hugging Face와 Kaggle에 Apache 2.0으로 풀려 있다. 엣지 디바이스, 로컬 PC, 클라우드 어디든 같은 기법을 적용할 수 있어 Gemma 4를 진지하게 운영 중인 팀이라면 바로 벤치마크해 볼 가치가 있다.

원문: https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

GPT-5.5 Instant가 ChatGPT 기본 모델로 — 환각 52.5% 감소, 이모지는 줄였다

OpenAI가 GPT-5.5 Instant를 무료·Plus·Pro 모든 ChatGPT 사용자의 기본 모델로 깔았다. API에서는 chat-latest로 잡힌다. GPT-5.3 Instant를 대체하는 업데이트로, 단순한 모델 교체가 아니라 ChatGPT 기본값 자체가 바뀌었다는 점이 의미가 크다.

내부 평가에서 의료·법률·금융처럼 위험도 높은 프롬프트에서 환각된 주장이 GPT-5.3 Instant 대비 52.5% 줄었다. 사용자가 사실 오류로 플래그한 까다로운 대화에서도 부정확한 주장이 37.3% 감소했다. 응답 스타일은 따뜻함을 유지하되 더 직접적이고, 불필요한 후속 질문을 줄이고 출력은 덜 어수선해졌다 — 이모지 사용도 의도적으로 줄였다.

개인화도 한 단계 올라갔다. GPT-5.5 Instant는 검색 도구를 써서 과거 대화, 파일, 연결된 Gmail을 참고해 답을 낸다. Plus와 Pro 웹부터 먼저 풀리고 모바일은 곧, Free·Go·Business·Enterprise는 몇 주 안에 확대된다. 기본 모델이 바뀐 만큼 기존 프롬프트와 평가 셋을 이번 주 안에 다시 돌려 차이를 확인해두는 게 좋다.

원문: https://openai.com/index/gpt-5-5-instant

"10 Things About Claude" — 1,006표 받은 r/ClaudeAI의 실용 팁 모음

Claude를 오래 써오면서 너무 늦게 알아낸 10가지 — r/ClaudeAI에서 1,000표 넘게 받으며 한 주 동안 가장 큰 화제가 된 글이다. 한 줄 정리하면, 모델 자체보다 프롬프트와 시스템 메시지를 어떻게 짜느냐가 결과물의 거의 전부를 결정한다는 이야기다.

핵심 팁은 모델에게 "모르면 모른다고 말해"라고 명시적으로 적게 하는 것, 톤이나 스타일은 본문이 아니라 시스템 프롬프트에 박아두는 것, 긴 요청은 한 문단으로 던지지 말고 번호로 끊어 단계별로 주는 것이다. 모두 이미 알고 있다고 생각하지만 실제 매번 그렇게 쓰지는 않는 종류의 습관들이다.

다른 항목도 같은 결로 가닿는다. 모델 출력이 모호해지면 모델 탓 하기 전에 프롬프트의 모호함부터 잡고, 길이 제한·예시·출력 형식을 명시하고, 작업이 잘 풀리면 그 프롬프트를 즐겨찾기에 박아 재사용한다. Claude를 매일 쓰는 사람이라도 한 번쯤 자기 워크플로우와 비교해 볼 만한 체크리스트다.

원문: https://reddit.com/r/ClaudeAI/comments/1t4ncbj/10_things_about_claude_that_took_me_way_too_long/

addyosmani/agent-skills — 코딩 에이전트에 시니어 엔지니어링 규율을 박는 20개 스킬

addyosmani가 공개한 agent-skills는 시니어 엔지니어가 실무에서 쓰는 워크플로우를 코딩 에이전트가 그대로 따르도록 만든 "프로덕션급" 스킬 모음이다. 단순한 지시 모음이 아니라 단계별 검증 요건까지 포함된 20개 스킬이 들어 있다.

조직 구조는 개발 라이프사이클을 6단계로 쪼갠다. Define(스펙) → Plan(태스크 분해) → Build(코딩·테스트·디자인) → Verify(테스트·디버깅) → Review(품질 게이트) → Ship(배포). 각 단계마다 정해진 슬래시 커맨드(`/spec`, `/plan`, `/build`, `/test`, `/review`, `/code-simplify`, `/ship`)가 적합한 스킬을 자동으로 띄운다.

가장 인상적인 부분은 "anti-rationalization" 표다. "테스트는 나중에 추가할게" 같은 흔한 자기 합리화를 미리 카운터 치고, 다음 단계로 넘어가기 전에 구체적 증거 기반 검증을 강제한다. Claude Code, Cursor, Gemini CLI, Copilot 어디서든 마크다운 그대로 쓸 수 있어 팀 단위 도입 비용이 거의 없다.

원문: https://github.com/addyosmani/agent-skills

free-llm-api-resources — 무료 LLM API 카탈로그, 어디서 얼마나 쓸 수 있나

cheahjs/free-llm-api-resources는 영구 무료 티어와 트라이얼 크레딧을 모두 정리한 무료 LLM API 디렉토리다. 사이드 프로젝트나 프로토타입을 돌릴 때 어디 가면 가장 길게 공짜로 버틸 수 있는지 한 번에 비교할 수 있다.

영구 무료 쪽은 OpenRouter가 가장 넉넉하다. Gemma·Llama·Hermes 계열을 분당 20요청·일 50요청까지 무료로 쓸 수 있다. Google AI Studio는 Gemini 모델별로 분당 25만 토큰까지 열려 있고, Groq는 Llama 3.3 70B를 일 1,000요청·분당 12,000 토큰까지 돌릴 수 있다. Cloudflare Workers AI는 일 10,000 뉴런 단위로 배정한다.

트라이얼 쪽은 Fireworks($1), Baseten($30), SambaNova Cloud(3개월 $5)처럼 시작 크레딧이 붙는다. README는 리버스 엔지니어링된 챗봇이나 비합법 서비스는 명시적으로 배제하고 있어 안전하게 쓸 수 있는 채널만 묶어놨다는 점도 장점이다.

원문: https://github.com/cheahjs/free-llm-api-resources

bytedance/deer-flow — 분 단위가 아니라 시간 단위로 도는 SuperAgent 하네스

ByteDance가 공개한 deer-flow는 LangGraph·LangChain 위에 깐 long-horizon SuperAgent 하네스다. 짧은 챗봇 응답이 아니라, 수십 분에서 수 시간 단위로 도는 작업을 견디도록 처음부터 다시 짠 프레임워크다.

핵심 능력은 작업을 잘게 쪼갠 뒤 서브 에이전트를 병렬로 돌리고 결과를 합치는 것이다. 각 에이전트는 격리된 컨텍스트와 전용 파일시스템 안에서 동작해 동시에 돌아도 서로 간섭하지 않는다. 단순 도구 호출만 가능한 챗봇과 달리 영속 메모리, 파일 입출력, MCP 서버나 사용자 정의 Python 함수까지 진짜 컴퓨팅 인프라를 에이전트에게 쥐여 준다.

실행 환경은 로컬·Docker·Kubernetes 세 가지를 지원해 보안 요구 수준에 따라 고를 수 있다. 스킬은 마크다운으로 정의된 모듈식 단위라 리서치, 리포트 생성, 슬라이드 만들기, 사용자 정의 워크플로우까지 같은 구조로 확장된다. 토큰 제약이 빡빡한 모델에서도 progressive loading으로 컨텍스트 창을 가볍게 유지한다. 웹 UI·REST API·Python 클라이언트·Slack·Feishu까지 진입 채널이 다양해 사내 자동화에 끼워넣기 쉬운 점도 강점이다.

원문: https://github.com/bytedance/deer-flow

코드는 한 번도 병목이 아니었다 — 에이전트 시대의 진짜 제약은 조직의 컨텍스트

The Typical Set의 글은 코딩 에이전트가 등장하면서 비로소 드러난 사실을 정리한다. 우리는 수십 년간 코드 작성 비용을 낮추는 데 집중해 왔지만, 그 비용이 실제로 떨어지자 진짜 병목은 코드가 아니라 "어떤 코드를 만들지 결정하는 사람들"이라는 게 노출됐다.

에이전트가 충분히 빠르게 코드를 짜는 순간, 팀은 더 이상 엔지니어를 기다리지 않는다. 정확한 스펙, 잘 정리된 요구사항, 명확한 수용 기준을 기다린다. 즉, 매니지먼트와 프로덕트 의사결정 자체가 처리량을 결정한다.

또 하나의 위기는 컨텍스트다. 사람은 옆자리에서 흘려듣고 회의실에서 주고받으며 조직 메모리·과거 결정·암묵적 컨벤션을 흡수하지만, 에이전트는 그렇게 못 한다. 프롬프트, 파일트리, 도구, 명시적 지시에 안 들어간 정보는 사실상 존재하지 않는 정보다. 그래서 글의 결론은 단순하다 — 이기는 조직은 더 좋은 모델을 가진 곳이 아니라 더 좋은 "일관성"을 가진 곳이고, 결정과 합의 사항을 글로 옮겨두는 문화가 이제는 선택이 아니라 경쟁력이 된다.

원문: https://www.thetypicalset.com/blog/thoughts-on-coding-agents

---

매일 만들어 쓰는 AI 도구와 에이전트가 진짜 일을 바꾸는 모습을 가까이서 보고 있다면, 어떤 흐름은 그냥 트렌드가 아니라 일하는 방식 자체를 다시 짜는 신호다. 나무숲은 이런 흐름을 곁에서 빠르게 옮겨주는 자동화 도구를 만들고 있다 — 매일 우리가 직접 쓰면서 다듬은 것들을 treesoop.com/blog에 남기고 있다.