2026년 06월 02일 AI 뉴스 — 로컬 LLM, 멀티모달 도구, 하네스

GPU 없이 10년 된 제온으로 26B LLM 구동, 비전 LLM용 크롬 확장 MMRequest, LLM 관측 플랫폼 Spanlens, 그리고 AI 시대의 진짜 경쟁력 '하네스'까지 — 오늘의 AI 뉴스.

오늘은 거창한 모델 출시보다, AI를 매일 쓰는 개발자의 손끝에 직접 닿는 도구와 통찰이 눈에 띄었습니다. 비싼 GPU 없이 LLM을 돌리는 법, 비전 모델에 이미지를 흘려보내는 방법, 그리고 'AI 시대의 진짜 경쟁력은 어디에 있는가'라는 질문까지 정리했습니다.

10년 된 제온 CPU로 26B LLM을 돌리다

GPU가 없어도 대형 언어 모델을 돌릴 수 있을까요. 한 개발자가 2016년산 인텔 제온 CPU와 128GB DDR3 메모리만으로, GPU 없이 26B 파라미터의 Gemma 4(Mixture-of-Experts) 모델을 구동하는 데 성공했습니다.

비결은 하드웨어가 아니라 추론 엔진에 대한 깊은 이해였습니다. MTP 드래프터를 활용한 speculative decoding, CPU에 특화된 MoE 라우팅과 expert fusion, 런타임 메모리 repacking, 그리고 Flash Attention용 커스텀 CPU 커널까지 — 메모리 대역폭 병목을 겨냥한 25개의 설정 플래그를 정교하게 튜닝했습니다.

그 결과 '읽는 속도'에 준하는 텍스트 생성 성능을 끌어냈습니다. 추론 엔진 구조와 메모리 계층을 제대로 이해하면 노후 하드웨어로도 충분히 실용적인 로컬 LLM을 돌릴 수 있다는 것을 보여준 사례입니다.

원문: https://point.free/blog/gemma-4-on-a-2016-xeon/

비전 LLM에 이미지를 바로 넣는 크롬 확장, MMRequest

비전 LLM API를 부를 때마다 이미지를 손으로 base64로 변환하는 번거로움, 한 번쯤 겪어보셨을 겁니다. MMRequest는 바로 그 짜증에서 출발한 크롬 확장으로, 이미지를 자동으로 변환해 멀티모달 API 호출에 바로 넣어줍니다. 작지만 멀티모달 개발의 반복 마찰을 확실히 줄여주는 실용 도구입니다.

원문: https://mm-request.vercel.app

LLM 호출과 에이전트 trace를 한 곳에서, Spanlens

에이전트가 복잡해질수록 "지금 무슨 호출이 어떤 순서로 일어나는가"를 파악하기 어려워집니다. Spanlens는 OpenAI·Anthropic·Gemini 등으로 나가는 모든 LLM API 호출을 관측하는 플랫폼으로, 비용·지연시간·토큰은 물론 요청과 응답 전체를 추적합니다.

여기에 응답 품질 점수화, 이상 탐지, PII 유출 감지, 그리고 모델 선택을 최적화하기 위한 통제된 실험 기능까지 제공합니다. 코드 한 줄로 연동되고 셀프 호스팅도 가능해, 개인 개발자부터 감사 추적과 팀 협업이 필요한 기업까지 두루 쓸 수 있습니다.

원문: https://spanlens.io

AI 시대의 진짜 승부처는 모델이 아니라 '하네스'

투자자 토마스 텅구즈는 강력한 AI 모델도 결국 '하네스(harness)'라는 구조화된 시스템으로 길들여야 실용적이고 안전해진다고 주장합니다.

그가 제시하는 하네스는 일곱 가지 요소로 구성됩니다. 관련 정보를 끌어오는 컨텍스트·메모리, 외부에 작용하는 도구·액션, 계획과 실행을 잇는 오케스트레이션·루프, 복구력을 주는 상태·지속성, 안전한 격리를 위한 샌드박스·컴퓨트, 감시와 통제를 담당하는 관측·거버넌스, 그리고 아키텍처 차원의 비용 최적화입니다.

이 인프라가 원시 모델 성능을 기업이 대규모로 신뢰하고 배포할 수 있는 소프트웨어로 바꿔놓습니다. 결국 차별화는 모델 접근권이 아니라 그 주변을 둘러싼 엔지니어링에서 나온다는 통찰입니다.

원문: https://tomtunguz.com/harnessing-ai/

---

매일 쏟아지는 AI 뉴스 속에서 개발자에게 정말 도움이 되는 소식만 골라 전합니다. 더 많은 AI 인사이트는 나무숲(TreeSoop)에서 이어집니다.