2026년 5월 3일 AI 뉴스 — DeepSeek V4 공개, 멀티 에이전트 트레이딩, 코딩 모델 벤치마크

DeepSeek V4-Pro·Flash 오픈웨이트 공개, 멀티 에이전트 트레이딩 프레임워크 TradingAgents, ruflo, Browserbase 스킬, graphify, GPT-5.5 vs Opus 4.7 벤치마크, ML 인턴, LLM 스팸 차단 신뢰 웹까지 정리.

오늘의 AI 뉴스에서는 DeepSeek가 100만 컨텍스트의 V4-Pro·V4-Flash 오픈웨이트 모델을 공개해 가격·성능 양쪽에서 새 기준을 제시했고, 4개 팀의 분담 분석과 강세·약세 토론을 결합한 멀티 에이전트 트레이딩 프레임워크 TradingAgents가 GitHub 스타 6만 2,500개를 돌파했습니다. Claude Code 위에 에이전트 스웜·벡터 메모리·페더레이션을 얹는 ruflo, Browserbase가 공개한 브라우저 자동화 스킬 9종, 코드·문서·영상까지 지식 그래프로 변환하는 graphify까지 실제로 쓸만한 도구들이 한꺼번에 쏟아졌습니다. 56개 실전 코딩 태스크로 GPT-5.5와 Opus 4.7을 비교한 벤치마크, Hugging Face가 내놓은 브라우저용 ML 인턴 에이전트, LLM 스팸 PR을 막기 위한 신뢰 웹 시스템까지 한 번에 정리했습니다.

TradingAgents — 트레이딩펌 구조 그대로 옮긴 멀티 에이전트 프레임워크

LangGraph 기반의 오픈소스 프로젝트 TradingAgents가 GitHub 스타 6만 2,500개를 넘기며 화제가 되고 있습니다. 핵심 아이디어는 단순합니다. 실제 트레이딩펌의 구조를 그대로 LLM 에이전트로 옮긴 것입니다.

네 개의 팀이 협업합니다. 분석팀은 펀더멘털·센티먼트·뉴스·기술적 분석을 각자 담당하고, 리서치팀은 강세·약세 입장에서 분석 결과를 두고 토론을 벌입니다. 트레이더 에이전트가 이 토론을 종합해 매매 결정을 내리면, 마지막으로 리스크 매니지먼트와 포트폴리오 매니저가 변동성을 평가해 거래를 승인하거나 기각합니다. OpenAI·Anthropic·Google·DeepSeek·Qwen·GLM 등 다중 LLM 프로바이더를 지원하고, 결정 로깅과 체크포인트 기반 재개 실행, Docker 배포까지 갖췄습니다.

복잡한 도메인 작업을 여러 역할로 분해하고 각 역할에 다른 모델을 붙이는 패턴은 트레이딩 외에도 실무 자동화에 그대로 응용할 수 있습니다.

원본 보기

ruflo — Claude Code 위에 얹는 에이전트 스웜 플랫폼

ruflo는 Claude Code에 에이전트 스웜·자가학습 메모리·페더레이션·엔터프라이즈 보안을 더하는 오케스트레이션 플랫폼입니다. 단일 Claude Code 세션의 한계를 깨고 멀티 에이전트 환경으로 확장하려는 목적이 분명합니다.

핵심 기능은 다섯 가지입니다. 계층형·메시 토폴로지에서 자가 조직화하는 에이전트 스웜, HNSW 인덱싱을 사용하는 벡터 메모리로 세션 간 지식을 보존하고, 서로 다른 머신의 에이전트가 PII를 자동으로 걸러낸 채 협업하는 크로스 머신 페더레이션, 테스트·보안 감사·최적화를 자동으로 트리거하는 12종 백그라운드 워커, Claude·GPT·Gemini·로컬 모델로 작업을 라우팅하는 멀티 프로바이더 지원입니다.

도메인별 32개 플러그인이 함께 제공되며, 평문 한국어로 목표를 적으면 실행 가능한 에이전트 워크플로우를 생성하는 goal.ruv.io, 병렬 MCP 도구 실행을 지원하는 멀티 모델 챗 flo.ruv.io 같은 호스팅 도구도 같이 제공됩니다.

원본 보기

Browserbase, Claude Code용 브라우저 자동화 스킬 9종 공개

Browserbase가 Claude Code에서 자사 인프라를 곧바로 활용할 수 있는 스킬 모음을 GitHub에 공개했습니다. 자연어 한 줄로 브라우저 자동화를 돌릴 수 있도록 9개 영역으로 나눠 정리한 것이 특징입니다.

포함된 스킬은 다음과 같습니다. 원격 세션·안티봇 스텔스·CAPTCHA 솔빙을 갖춘 browser, 공식 CLI를 다루는 browserbase-cli, 서버리스 브라우저 자동화를 배포하는 functions, 실패한 자동화를 진단하는 site-debugger, DevTools 트레이스와 스크린샷을 캡처하는 browser-trace, 사용량과 비용을 보여주는 bb-usage, Chrome 쿠키를 영속 컨텍스트로 동기화하는 cookie-sync, 정적 페이지를 브라우저 없이 가져오는 fetch, AI 기반 어드버서리얼 테스팅인 ui-test입니다.

설치만 하면 "Hacker News 톱 글의 댓글을 요약해줘" 또는 "localhost를 QA 테스트하고 발견되는 버그를 고쳐줘" 같은 자연어 지시로 곧바로 동작합니다. 브라우저 자동화 코드를 직접 작성할 필요가 없어졌습니다.

원본 보기

graphify — 코드·문서·영상까지 지식 그래프로 만드는 Claude 스킬

graphify는 폴더 안의 코드·문서·논문·이미지·동영상을 모두 읽어 쿼리 가능한 지식 그래프로 변환하는 스킬입니다. Claude Code뿐 아니라 Cursor·Gemini CLI·GitHub Copilot 등 15개 이상의 AI 코딩 어시스턴트에서 사용할 수 있습니다.

추출 방식이 흥미롭습니다. 첫 패스에서는 LLM 호출 없이 Tree-sitter로 클래스·함수·임포트·콜 그래프를 결정론적으로 추출하고, 두 번째 패스에서는 영상·오디오를 faster-whisper로 로컬 전사하며, 세 번째 패스에서 비로소 Claude가 병렬 서브에이전트로 문서·논문·이미지를 의미 단위로 분석합니다. 이렇게 만든 NetworkX 그래프를 Leiden 커뮤니티 디텍션으로 클러스터링해 임베딩이 아닌 엣지 밀도 기반으로 연관 그룹을 식별합니다.

산출물은 인터랙티브 HTML 시각화, "갓 노드"와 의외의 연결을 짚어주는 GRAPH_REPORT.md, 영속 쿼리용 graph.json, SHA256 캐시(변경된 파일만 재처리)입니다. graphify claude install을 한 번 실행해두면 PreToolUse 훅이 Claude에게 그래프 보고서의 존재를 자동 알림으로 전달해, 키워드가 아닌 구조 기반으로 코드베이스를 탐색하게 만듭니다.

원본 보기

DeepSeek V4 공개 — 1M 컨텍스트, 오픈웨이트 최대 규모

DeepSeek가 V4-Pro와 V4-Flash 두 모델을 프리뷰로 공개했습니다. V4-Pro는 총 파라미터 1.6T·액티브 49B의 MoE 모델로, Kimi K2.6과 GLM-5.1을 제치고 현재 가장 큰 오픈웨이트 모델 자리에 올랐습니다. V4-Flash는 284B 총 파라미터·13B 액티브이며, 두 모델 모두 100만 토큰 컨텍스트를 지원하고 MIT 라이선스로 배포됩니다.

가장 눈에 띄는 부분은 효율성입니다. V4-Pro는 V3.2 대비 단일 토큰 FLOPs의 27%, KV 캐시 크기의 10%만 사용합니다. 가격도 공격적입니다. Flash는 입력 100만 토큰당 0.14달러·출력 0.28달러로 최저가 소형 모델 자리를 차지했고, Pro는 입력 1.74달러·출력 3.48달러로 프론티어급 대형 모델 중 최저가입니다. OpenAI의 GPT-5.4 Nano를 직접 깎아내리는 가격대입니다.

성능 격차에 대해 DeepSeek 자체 벤치는 V4-Pro가 프론티어 모델 대비 약 3~6개월 뒤처진다고 평가하지만, 추론 토큰을 충분히 늘리면 동급 성능을 낸다고 설명합니다. SVG 생성 같은 실측 결과는 GPT-5.4·Gemini-3.1-Pro에 살짝 뒤지지만 충분히 실용적인 수준입니다.

원본 보기

GPT-5.5 vs GPT-5.4 vs Opus 4.7 — 56개 실전 코딩 태스크 벤치마크

r/codex에 두 개 오픈소스 레포에서 추출한 56개 실전 코딩 태스크로 GPT-5.5, GPT-5.4, Opus 4.7을 비교한 벤치마크 결과가 올라왔습니다. 합성 벤치마크가 아니라 실제 PR과 이슈에서 뽑아낸 작업들로 구성된 점이 차별화 포인트입니다.

세 모델을 같은 프롬프트와 같은 환경에서 돌리고 결과물의 빌드·테스트 통과 여부, 의도 충실도, 코드 품질을 비교한 방식이며, 작성자는 원본 결과 데이터와 방법론을 함께 공개했습니다. Opus 4.7과 GPT-5.5의 강점이 작업 종류에 따라 갈리는 모습이 흥미로운데, 신규 기능 추가에서는 모델 차이가 작지만 기존 코드베이스의 미묘한 버그를 찾아 고치는 작업에서는 격차가 더 벌어진다는 것이 핵심 관찰입니다.

세 모델 중 무엇을 메인으로 쓸지, 어떤 작업에 어떤 모델을 라우팅할지 고민하는 개발자에게 합성 벤치보다 훨씬 실전적인 참고 자료입니다.

원본 보기

Hugging Face의 ML 인턴 — 브라우저에서 학습·평가 자동화

smolagents 팀이 Hugging Face Spaces에 ML Intern을 공개했습니다. 데이터셋을 가리키면 학습·평가·데이터 준비 작업을 알아서 처리하는 ML 워크플로우 에이전트로, 별도 환경 셋업 없이 브라우저에서 바로 돌릴 수 있다는 점이 핵심입니다.

smolagents는 Hugging Face가 코드 생성 기반 에이전트를 가볍게 만들기 위해 내놓은 프레임워크인데, 이번 ML Intern은 그 프레임워크의 실전 데모 성격이 강합니다. 출시 직후부터 277개 좋아요와 30여 개 커뮤니티 토론이 붙으며 빠르게 트래픽을 모으고 있습니다.

새 데이터셋이 들어올 때 베이스라인을 빨리 잡아야 하거나, 데이터 정제·평가 루틴을 자동화하고 싶을 때 일단 붙여보고 가능성을 가늠해보기에 좋은 출발점입니다.

원본 보기

Tangled, LLM 스팸 PR 막기 위한 신뢰 웹 도입

GitHub 대안 코드 호스팅 Tangled가 LLM 스팸을 줄이기 위한 vouching 시스템을 도입했습니다. 문제 정의가 명확합니다. LLM 도구는 "언캐니 밸리" 영역의 PR — 얼핏 맞아 보이지만 미묘하게 틀린 — 을 양산하고, 이 부담은 그대로 메인테이너에게 돌아간다는 것입니다.

작동 방식은 분산형입니다. 사용자는 다른 컨트리뷰터를 vouch 또는 denounce할 수 있고, 신뢰받는 사람에게는 녹색 방패, 도구를 오용한 사람에게는 빨간 표시가 붙습니다. 단 핵심 제약이 있습니다. "당신이 직접 vouch한 사람, 또는 당신이 vouch한 사람이 vouch한 사람"에게만 표시가 보입니다. 즉 글로벌 평판이 아닌 로컬 신뢰망이며, denounce를 받아도 차단되지 않고 가시성만 달라집니다.

기록은 개인 데이터 서버에 공개적으로 저장되고 Tangled 앱뷰가 집계합니다. 향후 vouch 시간 감쇠와 특정 컨트리뷰션과 추천을 연결하는 증거 추적이 추가될 예정입니다. AI 생성 PR이 메인테이너의 가장 큰 시간 도둑이 되어가는 지금, 차단이 아닌 가시성 중심의 접근이 맞을지 지켜볼 가치가 있습니다.

원본 보기

---

매일 아침 AI 업계 핵심 소식을 정리해 보내드립니다. 나무숲 블로그에서 더 많은 인사이트를 만나보세요.