2026년 6월 5일 AI 뉴스 — 젬마4 12B와 구글 에이전트 런타임

구글 젬마4 12B와 분산 에이전트 런타임, 오픈AI 코덱스 AWS 정식 제공, 깃허브 코파일럿 SDK·spec-kit, 엔비디아 코스모스, 오픈소스 노트북LM 대안까지 6월 5일 AI 소식을 정리했습니다.

오늘의 AI 뉴스는 새 모델과 에이전트 인프라가 중심입니다. 구글이 노트북에서도 돌아가는 경량 멀티모달 모델 젬마4 12B와 분산 에이전트 런타임을 동시에 내놓았고, 오픈AI 모델과 코덱스가 AWS에 올라오면서 클라우드 선택지가 넓어졌습니다. 깃허브 코파일럿 SDK와 spec-kit 같은 AI 개발 도구, 엔비디아의 피지컬 AI 플랫폼, 오픈소스 노트북LM 대안, 그리고 LLM의 실제 해킹 능력을 돈 들여 측정한 실험까지 매일 쓰는 도구에 직접 닿는 소식을 모았습니다.

구글 젬마4 12B, 노트북에서 돌아가는 인코더리스 멀티모달 모델

구글이 별도의 비전·오디오 인코더 없이 이미지와 오디오를 모델에 곧장 넣는 통합형 젬마4 12B를 공개했습니다. 인코더를 들어내면서 지연과 메모리 사용을 줄였고, 16GB VRAM만으로 더 큰 26B급에 근접한 성능을 냅니다. 중형 젬마 가운데 처음으로 네이티브 오디오 입력을 지원하며, 추론 속도를 끌어올리는 멀티 토큰 예측(Multi-Token Prediction) 드래프터도 들어갔습니다. 가중치는 Apache 2.0 라이선스로 허깅페이스와 캐글에 올라와 바로 받아 쓸 수 있습니다.

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

구글, 분산 에이전트 런타임 Agent Executor 오픈소스 공개

구글이 자율 에이전트를 안정적으로 돌리기 위한 분산 런타임 Agent Executor(AX)를 오픈소스로 내놓았습니다. 신뢰성·안전성·확장성·효율성을 목표로, 자동 실패 복구와 쿠버네티스 연동, 여러 LLM·프로토콜 지원을 기본으로 갖췄습니다. 전 과정에 대한 감사 추적과 관측성을 제공해, 단발성 데모를 넘어 운영 환경에서 도메인별 에이전트 워크플로를 굴리려는 팀을 겨냥했습니다. 에이전트를 인프라 차원에서 다루려는 흐름이 점점 또렷해지고 있습니다.

https://agentexecutor.io/

오픈AI 프런티어 모델과 코덱스, AWS에서 정식 제공

오픈AI의 프런티어 모델과 코덱스가 AWS에서 정식(GA)으로 제공되기 시작했습니다. 기업은 이미 쓰고 있는 AWS의 환경·권한·조달 절차 안에서 오픈AI 모델을 곧바로 활용할 수 있게 됐습니다. 그동안 특정 클라우드에 묶여 있던 도입 경로가 넓어지면서, 사내 표준이 AWS인 조직의 진입 장벽이 크게 낮아졌습니다.

https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws

깃허브, 코파일럿 에이전트 SDK 공개

깃허브가 코파일럿 CLI를 떠받치는 바로 그 에이전트 런타임을 코드로 호출할 수 있는 멀티플랫폼 SDK를 공개했습니다. Node.js·타입스크립트, 파이썬, Go, .NET, 자바, 러스트까지 여섯 개 언어를 지원해, 별도 오케스트레이션을 짜지 않고도 에이전트 워크플로를 앱에 바로 심을 수 있습니다. 자동 계획 수립, 툴 호출, 파일 편집, 커스텀 에이전트를 지원하고, 깃허브 인증과 자체 API 키(BYOK) 모두 쓸 수 있습니다.

https://github.com/github/copilot-sdk

스펙 기반 개발을 돕는 도구, spec-kit

깃허브의 spec-kit은 명세를 실행 가능한 산출물로 끌어올려, 스펙이 곧바로 동작하는 코드를 만들어 내도록 개발 순서를 뒤집습니다. 슬래시 명령과 CLI를 30개 이상의 AI 코딩 에이전트와 엮어, 원칙 수립 → 명세 작성 → 기술 계획 → 작업 분해 → 구현으로 이어지는 단계를 정형화합니다. 무엇을·왜 만들지를 먼저 정한 뒤 구현은 에이전트에 맡기되, '컨스티튜션'으로 정한 규칙으로 품질을 잡아 줍니다. 바이브 코딩이 일상이 된 환경에서 결과물의 방향을 잡아 주는 안전장치 역할을 합니다.

https://github.com/github/spec-kit

엔비디아 코스모스, 피지컬 AI를 위한 월드 모델 플랫폼

엔비디아 코스모스는 월드 모델과 데이터셋, 도구를 묶은 피지컬 AI 개발용 오픈 플랫폼입니다. 최신 코스모스 3는 추론과 생성을 하나의 구조로 합치고 텍스트·비전·오디오·행동(action)까지 멀티모달 입력을 받아, 로봇 조작·자율주행 제어·장면 이해 같은 작업을 다룹니다. Diffusers, vLLM, 코스모스 프레임워크로 오픈소스 구현을 제공해 프런티어급 월드 모델을 연구와 프로덕션 모두에서 쓸 수 있게 했습니다. 소프트웨어 에이전트를 넘어 물리 세계에서 동작하는 AI로 무게추가 옮겨 가는 흐름을 보여 줍니다.

https://github.com/NVIDIA/cosmos

오픈소스 노트북LM 대안, open-notebook

open-notebook은 100% 로컬에서 돌아가는, 프라이버시 중심의 노트북LM 대안입니다. OpenAI·앤트로픽·Ollama·LM Studio 등 18개 이상의 제공자를 지원해, 더 싸거나 로컬인 모델을 골라 쓰면서 자료에 대한 통제권을 온전히 손에 쥡니다. 다중 화자 팟캐스트 생성, 콘텐츠 변환, REST API, 세밀한 컨텍스트 제어처럼 구글 버전을 넘어서는 기능도 갖췄습니다. 도커로 어디든 자체 호스팅할 수 있어 사내 자료처럼 외부에 올리기 어려운 문서를 다룰 때 특히 쓸모가 큽니다.

https://github.com/lfnovo/open-notebook

LLM은 내 앱을 해킹할 수 있을까, 150만 원짜리 실험

보안 연구자 Kasra Rahjerdi가 일부러 취약점을 심은 앱(React Native Expo 프런트 + FastAPI·Firebase 백엔드)을 만들고, 약 1,500달러를 들여 여러 LLM이 이를 뚫는지 측정했습니다. 핵심 취약점은 API는 단단한데 Firebase가 활짝 열린 '접근 제어 결함'으로, 실제 앱에서 흔히 보이는 유형입니다. 결과는 모델별로 크게 갈렸는데, GPT-5.5가 10번 중 7번으로 가장 앞섰고 딥시크 V4 Pro 3회, 클로드 소나4.6·오푸스4.8는 각 2회였으며 제미나이 계열은 보안 사유로 곧바로 거절하는 경우가 많았습니다. 막연한 우려 대신 구체적 수치를 제시한, 보안 담당 개발자가 한 번쯤 짚어 볼 만한 실험 기록입니다.

https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/

---

매일 쏟아지는 AI 뉴스를 나무숲이 골라 정리해 전합니다. 더 많은 소식은 나무숲 블로그에서 확인하세요.