2026년 4월 23일 AI 뉴스 — Google 8세대 TPU, Langfuse 25K 돌파, Vercel 스킬 레지스트리

Google이 훈련·추론용 TPU를 분리해 출시했고, Langfuse가 LLM 옵저버빌리티 표준으로 자리잡는 중. Vercel Labs의 에이전트 스킬 레지스트리와 OpenAI Privacy Filter까지 — 오늘의 AI 뉴스 8건.

오늘은 Google이 8세대 TPU를 훈련용(8t)과 추론용(8i)으로 분리 발표하며 에이전트 시대용 AI 인프라 경쟁에 불을 붙였고, Langfuse는 LLM 옵저버빌리티 플랫폼으로 깃허브 25K 스타를 돌파하며 프로덕션 AI 모니터링의 표준으로 자리잡고 있다. Vercel Labs는 `npx skills add`로 설치하는 오픈 에이전트 스킬 레지스트리를 공개했고, OpenAI는 PII 자동 탐지용 오픈 웨이트 모델 Privacy Filter를 출시했다.

Google 8세대 TPU, 훈련용과 추론용으로 분리 출시

Google이 에이전트 시대를 겨냥한 8세대 TPU 두 가지를 공개했다. 훈련 전용 TPU 8t는 백만 칩까지 near-linear 확장을 지원하며 121 ExaFlops의 연산 성능을 제공하고, 추론 전용 TPU 8i는 저지연 에이전트 워크로드에 특화돼 달러당 80% 더 나은 성능을 보여준다. 두 칩 모두 이전 세대 대비 와트당 성능이 최대 2배 개선됐고, 2026년 후반 정식 출시 예정이다.

훈련과 추론을 전용 하드웨어로 분리한다는 선택은 AI 워크로드가 더 이상 범용 연산 하나로 처리되지 않는다는 신호다. 에이전트가 실제 업무에 투입되는 비중이 커지면서, 저지연 추론이 독립된 칩 카테고리로 떠오르는 중이다. 자세한 내용은 Google Cloud 블로그에서 확인할 수 있다.

Langfuse, 오픈소스 LLM 엔지니어링 플랫폼으로 25K 스타 돌파

Langfuse는 LLM 호출 추적, 프롬프트 버전 관리, 평가, 플레이그라운드를 하나로 묶은 오픈소스 플랫폼이다. LangChain·OpenAI SDK·LlamaIndex와 네이티브 통합되며, Langflow·Open WebUI 같은 대형 오픈소스 프로젝트들이 프로덕션 디버깅 도구로 채택 중이다.

프로덕션에 AI를 붙인 팀이라면 "어느 프롬프트가 어떤 출력을 냈고, 왜 실패했는가"를 추적할 수 있어야 한다. Langfuse는 그 기본기를 셀프 호스팅으로 제공하는 몇 안 되는 선택지다. 리포지토리는 github.com/langfuse/langfuse에서 볼 수 있다.

Vercel Labs, 에이전트 스킬 레지스트리 공개

Vercel Labs가 Claude Code, Cursor, OpenCode를 포함한 44개 코딩 에이전트용 스킬 설치 CLI를 공개했다. `npx skills add` 한 줄로 리포지토리에서 스킬을 설치할 수 있고, 릴리스 노트 생성·PR 생성 같은 준비된 작업을 즉시 사용할 수 있다.

"커스텀 슬래시 커맨드를 매번 직접 만들어야 했던" 작업이 npm처럼 패키지화되는 흐름이다. 팀 공통 워크플로우를 스킬로 묶어 전체 에이전트 환경에 배포할 수 있다. github.com/vercel-labs/skills에서 사용 가능한 스킬 목록을 확인할 수 있다.

에이전트는 전부 비동기로 간다

zknill 블로그가 "AI 에이전트가 동기식 채팅에서 백그라운드 비동기 실행으로 근본적 전환 중"이라고 진단했다. 스케줄 작업·웹훅·원격 제어가 기본 기능이 되면서, HTTP 요청-응답 모델로는 연결보다 오래 사는 에이전트, 먼저 푸시하는 업데이트, 다중 사용자 시나리오를 처리할 수 없다는 것.

저자는 해결책으로 "durable transport와 durable state를 별도의 일급 primitive로 설계해야 한다"고 주장한다. 폴링과 중앙 집중식 상태 저장에 의존하는 현재의 Anthropic·Cloudflare 방식으로는 부족하다는 지적이다. 원문에서 아키텍처 논의를 볼 수 있다.

/graphify 스킬, 코드베이스를 지식 그래프로 압축

`/graphify`는 Claude Code·Cursor·Copilot CLI에서 작동하는 스킬로, 코드·문서·논문·이미지·영상을 모두 하나의 쿼리 가능한 지식 그래프로 변환한다. 3-pass 방식으로 동작한다. tree-sitter AST로 코드 구조 추출, Whisper로 영상·음성을 로컬에서 전사, Claude 서브에이전트가 병렬로 개념과 관계를 추출해 NetworkX 그래프로 병합한다.

제작자는 "원본 파일을 매번 읽는 대신 압축된 그래프를 조회하기 때문에 쿼리당 토큰이 71.5배 감소한다"고 주장한다. 모든 관계는 EXTRACTED / INFERRED / AMBIGUOUS로 태깅돼 신뢰도를 구분할 수 있어, 할루시네이션도 줄어든다. GitHub 리포는 safishamsi/graphify이며 32K 스타, 25만 다운로드를 기록 중이다.

인턴에게 첫날부터 바이브 코딩 시켰더니 — 2개월 실전 리포트

r/vibecoding의 한 시니어 개발자가 "14년 차 개발자가 인턴에게 첫날부터 바이브 코딩을 허용하면서 규칙을 세운 2개월 실전 기록"을 공유했다. 핵심은 가드레일 설계. 자유롭게 AI를 쓰게 하되, PR 리뷰 체크리스트, 특정 작업 유형에 대한 제약, 질문 유도 패턴 같은 구조화된 규칙을 미리 정해둔 것이다.

AI 코딩 도구가 신입 온보딩 방식까지 재편하는 중이다. 글에는 팀에 바로 적용할 수 있는 규칙 템플릿이 포함돼 있어, 주니어 개발자를 받는 팀이라면 훑어볼 가치가 있다. Reddit 원문에서 확인할 수 있다.

Google LiteRT-LM, 엣지 디바이스용 오픈소스 LLM 런타임

Google이 엣지 디바이스용 프로덕션급 LLM 추론 프레임워크 LiteRT-LM을 오픈소스로 공개했다. Android, iOS, 웹, 데스크톱, Raspberry Pi 같은 IoT 디바이스까지 지원하고, GPU와 NPU 가속기를 활용한다. Gemma, Llama, Phi-4, Qwen 등 주요 오픈 모델을 모두 지원한다.

이미 Chrome, Chromebook Plus, Pixel Watch의 온디바이스 AI 경험이 LiteRT-LM 위에서 돌아가고 있다. 모바일·웨어러블에 AI를 올릴 계획이 있다면 첫 번째 선택지가 될 만하다. 리포지토리는 google-ai-edge/LiteRT-LM이다.

OpenAI, PII 탐지용 오픈 웨이트 모델 Privacy Filter 공개

OpenAI가 텍스트에서 개인 식별 정보(PII)를 자동으로 탐지·마스킹하는 오픈 웨이트 모델 Privacy Filter를 출시했다. 파이프라인 앞단에 꽂아 넣기만 하면 이름·주소·주민번호 같은 민감 정보를 자동 처리해 GDPR·HIPAA 같은 프라이버시 규정 대응 비용을 낮춘다.

B2B·헬스케어·금융처럼 LLM에 고객 데이터를 넣기 전 전처리가 필요한 업무에 유용하다. 오픈 웨이트로 공개돼 온프레미스 배포도 가능하다. 발표 페이지에서 모델 스펙을 확인할 수 있다.

---

매일 이런 AI 뉴스를 큐레이션해 카카오톡과 Discord로 받고 싶다면 나무숲(TreeSoop) 채널을 구독하세요. AI 에이전트, 바이브 코딩, MCP 서버, LLM 인프라까지 — 실제 업무에 도움 되는 것만 골라 전달합니다. 매일 AI News 오픈채팅 또는 TreeSoop 블로그에서 더 많은 정보를 확인하세요.