2026년 5월 6일 AI 뉴스 — Uber 1500 에이전트, 에이전틱 코딩 10가지 교훈, 인디 RAG 인프라

Uber의 1,500개 AI 에이전트 운영기, dbreunig의 에이전틱 코딩 10가지 교훈, Karpathy CLAUDE.md, cocoindex 인크리멘털 RAG, local-deep-research, dexter까지 5월 6일 AI 뉴스 큐레이션.

오늘은 에이전트가 실제 프로덕션을 어떻게 흔들고 있는지를 보여주는 사례가 두드러졌다. Uber는 1,500개 AI 에이전트가 매주 6만 회 이상 실행되는 환경을 어떻게 통제하고 있는지 공개했고, dbreunig는 코드 생산이 저렴해진 시대에 개발자가 무엇에 집중해야 하는지 10가지 교훈으로 정리했다. 인프라 쪽에서는 cocoindex와 local-deep-research가 RAG와 리서치를 더 가볍고 사적인 환경으로 옮기고 있다.

Uber에서 1,500개 AI 에이전트가 매주 6만 회 실행되면 벌어지는 일

Uber 엔지니어 5,000명 중 90% 이상이 매달 AI를 쓰고 있고, 매월 1,500개 에이전트가 살아 움직이며 주당 6만 회 넘게 실행된다. 코딩 에이전트 Minions는 주간 1,800건의 코드 변경을 만들어내며 95%의 엔지니어가 사용한다.

문제는 의도한 악용이 아니라 사고였다. 사람보다 훨씬 빠르게 망가뜨릴 수 있고, 폭발 반경도 훨씬 컸다. 1만 개 넘는 내부 서비스에서 팀들이 따로따로 MCP 서버를 만들면서 표준 없이 중복 통합이 늘어났고, 에이전트가 모르고 제한된 엔드포인트에 접근하거나 민감 데이터를 노출하는 일이 생겼다.

해법은 중앙 MCP 게이트웨이와 레지스트리였다. 이 컨트롤 플레인이 엔드포인트 노출을 표준화하고 프로덕션 배포 전에 보안 스캐닝을 강제한다. 또한 노코드 Agent Builder에서 엔지니어가 사용 가능한 도구를 미리 골라 파라미터를 잠그도록 해, 런타임 의사결정과 실패 지점을 줄였다.

원문: https://shiftmag.dev/uber-shares-what-happens-when-1-500-ai-agents-hit-production-9430/

dbreunig의 에이전틱 코딩 10가지 교훈 — 코드가 싸진 시대에 무엇이 남는가

코드 생산이 저렴해질수록 개발자가 진짜 가치를 만드는 영역은 좁아지고 분명해진다. dbreunig는 에이전트 시대에 어떻게 일해야 하는지를 10가지 교훈으로 정리했다. 핵심은 "구현해서 배운다"이다. 빨리 만들어 봐야 명세가 놓친 결정이 드러나고, 그 발견이 다시 명세를 살아 있게 만든다.

테스트는 구현 디테일이 아니라 행동을 측정해야 한다. 그래야 에이전트가 코드를 갈아엎어도 계약이 깨지지 않는다. 명세는 동결된 청사진이 아니라 구현하면서 같이 업데이트되는 살아 있는 문서로 다뤄야 하고, "왜"를 코드 옆에 남겨두면 사람도 에이전트도 일관되게 개선을 쌓을 수 있다.

가장 중요한 메시지는 자동화 가능한 일은 자동화하고, 사람의 에너지는 직관적 설계, 성능, 보안, 아키텍처처럼 진짜 가치가 나는 어려운 문제에 몰아 넣으라는 것이다. 그리고 코드 자체는 공짜가 아니라 "강아지처럼 공짜"라는 점을 잊지 말 것 — 유지보수, 지원, 보안 비용은 여전히 들어간다.

원문: https://www.dbreunig.com/2026/05/04/10-lessons-for-agentic-coding.html

AI 에이전트가 PostgreSQL에 쿼리하기 시작하면 데이터베이스 안에서 벌어지는 일

AI 에이전트가 데이터베이스를 직접 두드리기 시작하면 가장 먼저 깨지는 건 사람이 만든 쿼리 패턴 가정들이다. 사람은 화면 하나당 쿼리 몇 개로 천천히 들어오지만 에이전트는 짧은 시간에 수많은 탐색 쿼리를 쏟아낸다.

이 글은 PostgreSQL 안에서 무슨 일이 벌어지는지 단계별로 본다. 커넥션 풀이 빠르게 소진되고, 쿼리 플래너가 평소 보지 못하던 형태의 조합을 만나 비싼 플랜을 골라 버리고, 락 패턴이 사람 트래픽 기준으로 짜놓은 인덱스 전략을 뚫고 들어간다.

에이전트에게 DB를 열어 줄 때 단순히 read-only 사용자만 만들어 놓는 것으로는 부족하다는 점을 짚어 준다. 풀 크기, 쿼리 시간 제한, 가능하면 별도 read replica로 라우팅하는 것까지 점검하지 않으면, 사람용 트래픽이 같이 무너질 수 있다.

원문: https://reddit.com/r/artificial/comments/1t4fbv3/

Codex로 gpt-image-2 목업을 진짜 동작하는 UI로 옮기는 법

이미지 생성 모델로 만든 UI 목업은 보기엔 그럴듯한데 막상 코드로 옮기면 어딘가 어긋나기 일쑤다. r/codex에 올라온 가이드는 이 문제의 해법이 목업의 품질이 아니라 프롬프트의 구조에 있다고 본다.

핵심은 에이전트에게 "이 이미지대로 만들어 줘"가 아니라, 컴포넌트 단위로 분해된 사양과 함께 시각 자료를 같이 넘기는 것이다. 색, 간격, 정렬, 상호작용 같은 디테일을 텍스트로 같이 명시해 줘야 Codex가 이미지에서 헷갈릴 만한 부분을 자기 추측으로 채우지 않는다.

작은 차이지만 결과물은 크게 달라진다. 목업과 코드 사이의 손실을 줄이려면 결국 목업 그 자체보다 그것을 어떻게 설명하느냐가 더 큰 변수다.

원문: https://www.reddit.com/gallery/1t1klni

virattt/dexter — 금융 리서치를 자동화하는 자율 에이전트

Dexter는 복잡한 금융 질문을 받아 스스로 리서치 계획을 세우고, 라이브 시장 데이터로 실행하고, 자기 결과를 검증하면서 신뢰도가 충분해질 때까지 다듬는 자율 에이전트다.

기능적으로는 작업 분해, 자율 도구 선택, 셀프 밸리데이션을 핵심으로 하고 있고, 손익계산서·재무상태표·현금흐름 같은 실데이터에 접근한다. 무한 루프나 과도한 단계를 막는 안전장치도 들어 있다.

설치는 Bun 기반이고 OpenAI 키와 Financial Datasets 키를 넣어 돌린다. 인터랙티브 모드와 개발 모드를 모두 지원하고, WhatsApp 게이트웨이로 메신저에서 바로 호출하는 옵션, LangSmith로 평가 결과를 로깅하는 평가 스위트도 함께 제공된다.

원문: https://github.com/virattt/dexter

cocoindex — 에이전트를 위한 인크리멘털 RAG 인프라

cocoindex는 코드베이스, PDF, 회의록, Slack 대화, 영상 같은 원천 데이터를 LLM 애플리케이션을 위한 항상 신선한 컨텍스트로 바꿔 주는 오픈소스 파이썬 프레임워크다.

핵심 아이디어는 델타-온리 처리다. 소스가 바뀌면 전체 파이프라인을 다시 돌리는 대신, 실제로 바뀐 부분만 골라 내서 다시 처리한다. 변하지 않은 데이터는 캐시 그대로 두기 때문에 임베딩 비용이 크게 줄어든다 — 프로젝트는 "스케일에서 10배 더 싸다"고 말한다.

멘탈 모델은 데이터 엔지니어링판 React에 가깝다. 원하는 타깃 상태를 선언하면 엔진이 소스와 코드 변경을 보면서 그 상태를 계속 동기화한다. 모든 출력은 어떤 소스 바이트에서 왔는지까지 라인eage가 추적되니, 코드 인텔리전스, RAG 파이프라인, 지식 그래프, 멀티소스 합성 등 장기 실행 에이전트에 컨텍스트를 떠먹이는 인프라로 쓰기 좋다.

원문: https://github.com/cocoindex-io/cocoindex

local-deep-research — 95% SimpleQA를 노리는 로컬 리서치 에이전트

Local Deep Research는 프라이버시를 먼저 보는 사용자를 위한 AI 리서치 어시스턴트다. 여러 소스를 검색하고 결과를 종합해 인용까지 붙은 리포트를 만들어 준다.

로컬 모델은 Ollama, LM Studio, llama.cpp를 통해 Llama 3, Mistral, Gemma, DeepSeek, Qwen을 돌릴 수 있고, 클라우드 쪽은 OpenAI, Anthropic, Google에 더해 OpenRouter를 통한 100여 개 모델까지 지원한다. GPT-4.1-mini + SearXNG 조합으로 SimpleQA에서 약 95% 정확도가 나왔다고 알린다 — 다만 초기 결과이고 표본은 제한적이라 단서가 붙는다.

용도는 arXiv·PubMed·Semantic Scholar를 동시에 두드리는 학술 리서치, 암호화된 개인 지식베이스 검색, LangChain 리트리버 연결, Claude Desktop/Code에서 부르는 MCP 서버, 정기 리서치 다이제스트 구독까지 다양하다. AES-256 SQLCipher 암호화와 무 텔레메트리 정책이 기본값이라 데이터를 밖으로 내보내지 않는 환경이 필요한 팀에게 유용하다.

원문: https://github.com/LearningCircuit/local-deep-research

Karpathy 관찰 기반 CLAUDE.md — 에이전트가 흔히 망가지는 4가지 패턴

Andrej Karpathy가 정리한 LLM 코딩의 흔한 실수를 토대로 만들어진 한 장짜리 CLAUDE.md다. 검증되지 않은 가정, 코드 오버컴플리케이션, 무관한 코드까지 손대는 습관, 모호한 성공 기준 — 이 네 가지를 정조준한다.

원칙 자체는 단순하다. 코딩 전에 가정을 명시하고 모호함을 먼저 드러내라. 요청된 것만 푸는 최소 코드를 쓰고, 투기적 기능과 불필요한 추상화는 하지 마라. 사용자가 요청하지 않은 인접 코드를 "개선"하지 말고, 죽은 코드도 임의로 치우지 마라. 마지막으로, 작업을 검증 가능한 성공 기준으로 바꿔서 LLM이 그 기준에 도달할 때까지 루프하게 만들라 — Karpathy 본인이 강조한 "성공 기준만 주면 끝까지 돌아간다"는 부분이다.

플러그인으로 깔거나 프로젝트 루트에 CLAUDE.md를 떨어뜨려서 쓰면 된다. 의외의 PR 변경이 줄고, 첫 시도부터 코드가 단순해지고, 구현 전에 명확화 질문이 늘어나는 식의 신호로 효과를 확인할 수 있다.

원문: https://github.com/forrestchang/andrej-karpathy-skills

---

매일 만들어 쓰는 AI 도구와 에이전트가 진짜 일을 바꾸는 모습을 가까이서 보고 있다면, 어떤 흐름은 그냥 트렌드가 아니라 일하는 방식 자체를 다시 짜는 신호다. 나무숲은 이런 흐름을 곁에서 빠르게 옮겨주는 자동화 도구를 만들고 있다 — 매일 우리가 직접 쓰면서 다듬은 것들을 treesoop.com/blog에 남기고 있다.