2026년 6월 24일 AI 뉴스 — 오픈AI 데이브레이크·AI 보안·에이전틱 테스팅

오픈AI가 AI 보안 도구 데이브레이크를 공개했습니다. AI로 구글을 해킹해 버그바운티를 받은 사례, 슬랙의 에이전틱 테스팅, 자연어 데이터 수집 도구 등 오늘의 AI 뉴스 8건을 정리했습니다.

오늘은 보안에 초점이 맞춰진 하루였습니다. 오픈AI가 AI로 취약점을 찾고 고치는 '데이브레이크'를 공개했고, 한 보안 연구자는 Claude 기반 프레임워크로 구글의 API를 무차별 테스트해 거액의 버그바운티를 받았습니다. 여기에 에이전트를 테스트·데이터 수집·코딩 워크플로우에 녹이는 실전 도구들까지, 오늘의 AI 뉴스 8건을 정리했습니다.

오픈AI, AI로 취약점을 잡는 '데이브레이크' 공개

오픈AI가 조직의 보안을 강화하기 위한 새 도구 묶음 '데이브레이크(Daybreak)'를 발표했습니다. 핵심은 코드의 보안 결함을 찾아내는 Codex Security와, 사이버 보안에 특화된 GPT-5.5-Cyber 모델입니다. 대규모로 취약점을 발견하고 패치하는 작업을 AI가 대신 수행하도록 설계되어, 보안 인력이 부족한 조직도 방어선을 자동화할 수 있게 됩니다.

원문: https://openai.com/index/daybreak-securing-the-world

패치 더 플래닛 — AI로 오픈소스 메인테이너를 지원하다

데이브레이크의 후속 이니셔티브인 '패치 더 플래닛(Patch the Planet)'은 오픈소스 메인테이너를 직접 겨냥합니다. AI와 전문 리뷰어가 함께 오픈소스 프로젝트의 취약점을 찾아내고, 그것이 진짜 문제인지 검증한 뒤, 수정안까지 제안하는 구조입니다. 소수의 자원봉사자에게 보안 부담이 쏠리던 오픈소스 생태계에 실질적인 도움이 될 수 있는 시도입니다.

원문: https://openai.com/index/patch-the-planet

코덱스 맥싱 — 장기 실행 작업을 위한 AI 코딩

오픈AI가 코덱스(Codex)를 길고 복잡한 프로젝트에 활용하는 실전 노하우를 정리해 공개했습니다. 핵심은 긴 작업 세션 동안 컨텍스트를 잃지 않고 유지하는 방법과, 여러 단계로 이어지는 작업을 관리하는 워크플로우 팁입니다. 한 번에 끝나지 않는 코딩 작업을 AI에게 끝까지 맡기려는 개발자에게 유용한 가이드입니다.

원문: https://openai.com/index/codex-maxxing-long-running-work

AI로 구글을 해킹해 5억원 버그바운티를 받다

한 보안 연구자가 Claude를 핵심 퍼징(fuzzing) 프레임워크로 삼아, 구글의 디스커버리 문서에서 수집한 1,500개 이상의 API를 자동으로 테스트했습니다. 직접 만든 MCP 도구가 요청 생성과 응답 분석을 자동화했고, 그 결과 구글 보이스·AdExchange·Widevine의 계정 탈취, 내부 시스템(PLX/DataHub, Eldar)의 데이터 유출, Translation Hub·Vertex AI Search의 인가(authorization) 우회 등 약 24건의 취약점을 찾아냈습니다. 최종 성과는 'API 1,500개, 키 3,600개, 버그바운티 50만 달러'로, AI 기반 API 퍼징이 권한 제어 결함을 대규모로 발굴할 수 있음을 실증한 사례입니다.

원문: https://brutecat.com/articles/hacking-google-with-ai/

에이전틱 테스팅 — E2E 테스트 스택에서 에이전트의 자리

슬랙 엔지니어링 팀이 AI 에이전트 기반 E2E 테스트와 기존 결정론적(deterministic) 테스트를 정면으로 비교했습니다. 결정론적 테스트가 정해진 UI 동선을 빠르고 저렴하게 검증하는 반면, 에이전트 테스트는 '목표를 달성할 수 있는가'를 적응적으로 탐색하며 실행당 15~30달러, 5~11분이 듭니다. 단순 워크플로우에선 거의 실패가 없었지만 복잡한 시나리오에선 실패율이 최대 48%까지 치솟아, 잦은 회귀 테스트보다는 불안정한(flaky) 워크플로우 디버깅과 탐색적 테스트에 적합하다는 결론입니다. 흥미롭게도 Playwright MCP 기반 에이전트가 CLI 방식보다 우수했고, 토큰 비용 대부분은 모델 추론이 아니라 여러 턴에 걸친 컨텍스트 누적에서 발생했습니다.

원문: https://slack.engineering/agentic-testing-where-agents-fit-in-the-e2e-testing-stack/

bigset — 말로 설명하면 AI가 데이터를 긁어온다

bigset은 원하는 데이터셋을 평범한 자연어로 설명하면 살아 있는 웹에서 구조화된 데이터를 만들어 주는 도구입니다. 예를 들어 "지금 엔지니어를 채용 중인 YC 기업"이라고 적으면, 시스템이 스키마를 추론하고 자율 에이전트들을 풀어 웹 곳곳의 정보를 조사·검증한 뒤 CSV나 XLSX 파일로 내려받게 해 줍니다. 30분부터 주 단위까지 스케줄 갱신을 지원해 데이터셋을 자동으로 최신 상태로 유지하며, 병렬 에이전트 실행과 실제 출처 대조를 통한 중복 제거·검증, 그리고 웹 UI와 CLI를 모두 제공합니다.

원문: https://github.com/tinyfish-io/bigset

맷 포콕의 클로드 코드 스킬 모음

타입스크립트 교육자로 잘 알려진 맷 포콕(Matt Pocock)이 실제 개발 업무에 쓰는 Claude Code 스킬을 정리해 공개했습니다. 에이전트와의 의도 어긋남, 장황한 응답, 버그가 섞인 코드, 과도한 아키텍처 복잡도 같은 흔한 문제를 겨냥한 작고 조합 가능한 스킬들입니다. 거창한 전 과정 프레임워크가 아니라, 실무자가 바로 가져다 쓸 수 있는 재사용 가능한 실천법을 원하는 엔지니어를 위한 모음입니다.

원문: https://github.com/mattpocock/skills

LLM으로 매일 주식을 분석하는 자동화 파이프라인

daily_stock_analysis는 LLM을 활용해 여러 시장의 종목을 분석하고 투자 의사결정 리포트를 자동 생성하는 오픈소스 프로젝트입니다. A주(중국)·홍콩·미국 등 여러 시장의 실시간 시세, 뉴스, 기술적 지표를 모아 AI가 매수·매도·보유 신호와 리스크 경고, 촉매(catalyst) 분석이 담긴 일일 대시보드를 만들어 위챗·텔레그램 같은 채널로 알려 줍니다. 전 과정이 GitHub Actions로 무료 자동화된다는 점에서, 금융에 관심 없는 개발자라도 AI를 실제 자동화 파이프라인에 엮는 작동 예제로 살펴볼 만합니다.

원문: https://github.com/ZhuLinsen/daily_stock_analysis

---

나무숲은 매일 아침 개발자에게 꼭 필요한 AI 뉴스만 골라 전합니다. 더 많은 소식이 궁금하다면 treesoop.com을 찾아 주세요.