AI 개발 외주, 계약 전 확인할 5가지

AI 개발 외주 계약에서 발주사가 가장 후회하는 5가지 조항 — 레퍼런스 검증, 성능 KPI 정량화, IP·모델 가중치 귀속, 유지보수 SLA, LLM 비용 상한 + 모델 업데이트 조항까지. 2026년 AI 프로젝트 기준 체크리스트와 업체 선정 전 꼭 물어볼 질문 5가지.

계약서 앞에서 멈추는 발주사들

AI 개발 외주를 추진하는 기업 담당자가 계약서 직전에 가장 자주 막히는 지점은 기술 스펙이 아니다. 요구사항 정의서는 몇 차례 회의로 정리가 되는데, 정작 AI 개발 외주 계약서의 조항 몇 줄에서 의사결정이 멈춘다. 2026년 들어 LLM API 단가와 모델 업데이트 주기가 빨라지면서, 2024~2025년에 통용되던 계약 템플릿이 더 이상 그대로 작동하지 않는 현장이 늘고 있기 때문이다.

현장에서 관찰되는 패턴은 비슷하다. 기술 검증에는 충분한 시간을 쓰면서, 계약 조항은 기존 SI 프로젝트 템플릿을 그대로 얹는다. 그 결과 런칭 3개월 후 LLM API 비용이 예산을 초과하거나, 모델이 deprecate 되었을 때 재학습 비용을 누가 부담할지 합의되지 않은 상태로 분쟁이 시작된다. 이 글은 2026년 기준 AI 개발 외주 체크리스트로, 계약서에 반드시 들어가야 할 다섯 가지 조항을 정리한다.

왜 기술이 아니라 조항이 문제인가

AI 프로젝트는 전통적인 SI 프로젝트와 세 가지 지점에서 다르다. 첫째, 성능이 확률적이다. 할루시네이션 비율이나 응답 정확도는 "완벽히 동작한다"라는 SI식 검수 기준으로 담을 수 없다. 둘째, 운영 비용이 선형으로 증가한다. LLM API는 사용량에 비례해 과금되기 때문에 사용자가 늘면 개발비를 역전하는 티핑포인트가 온다. 셋째, 기반 모델이 6개월 단위로 바뀐다. 계약 시점의 GPT·Claude·Gemini 모델이 프로젝트 종료 시점에는 이미 다음 버전으로 대체되어 있다.

이 세 가지 특성은 모두 '계약서의 어느 조항에 책임이 기재되었는가'로 귀결된다. AI 개발 외주 업체 선정 과정에서 아무리 포트폴리오가 탄탄해도, 계약서가 이 세 가지를 흡수하지 못하면 운영 단계에서 반드시 마찰이 생긴다.

계약 전 확인할 5가지 조항

1. 레퍼런스 검증 — 리스트가 아니라 '연결 가능한 담당자'

가장 기초적이지만 가장 많이 생략되는 단계다. 외주 업체 홈페이지에 걸린 로고 리스트는 실제 프로젝트 성공을 보증하지 않는다. 2026년 기준 발주사들이 채택하는 방식은, 최소 2곳의 이전 고객사와 30분 레퍼런스 콜을 잡는 것이다. 체크 포인트는 단순하다. "같은 팀이 이번 프로젝트에도 투입되는가", "런칭 이후 유지보수 응답 속도는 어떠했는가", "예산 초과가 발생했을 때 어떻게 처리했는가."

2. 성능 KPI — "잘 동작한다"가 아니라 숫자로

AI 개발 외주 계약에서 가장 민감한 조항이다. 검수 기준을 정성적 표현으로 두면, 런칭 후 "정확도가 낮다"는 주장과 "스펙대로 납품했다"는 주장이 평행선을 달린다. 업계에서 표준화되어 가는 방식은 세 축의 정량 KPI다.

할루시네이션 비율: 사전 정의된 테스트셋 기준 몇 % 이하
응답 시간: p95 레이턴시 몇 초 이하
정확도: 도메인별 골든셋 기준 몇 % 이상

숫자는 프로젝트 성격에 따라 조정되더라도, '테스트셋이 계약서에 첨부되어 있는가' 자체는 타협하지 않는 것이 좋다. 테스트셋이 없는 KPI는 해석의 여지를 남기고, 해석의 여지는 결국 분쟁으로 이어진다. 국내외 AI 프로젝트 분쟁 사례를 보면, 계약 단계에서 KPI 테스트셋을 고정한 프로젝트와 그렇지 않은 프로젝트의 분쟁 발생률이 현저히 다르게 나타난다.

3. IP 귀속 & 데이터 소유권 — 모델 가중치까지 명시

SI 시절에는 소스코드 귀속만 명시하면 충분했다. AI 프로젝트에서는 최소 네 개의 자산이 있다. 소스코드, 학습 데이터, 파인튜닝된 모델 가중치, 그리고 프롬프트 자산. 각 자산의 소유권과 재사용 권리가 계약서에 구분되어 있어야 한다. 특히 파인튜닝 모델 가중치와 프롬프트 자산은 외주 업체가 유사 업종 다른 고객사에 재활용할 수 있는지를 두고 분쟁이 잦다. 학습 데이터 역시 '발주사가 제공한 원본'과 '가공·증강된 파생 데이터'를 분리해 각각의 귀속 주체를 명시하는 것이 2026년 기준 표준으로 자리잡고 있다.

4. 유지보수 SLA — 모델 업데이트 주기 반영

AI 모델은 6~12개월 주기로 기반 모델이 바뀐다. 유지보수 계약이 "버그 수정 응답 시간"만 다루고 있다면 그 자체로 구멍이다. 2026년 표준으로 자리잡아 가는 SLA는 네 가지를 분리한다. (1) 장애 대응 응답 시간, (2) 기반 모델 버전 업그레이드 주기, (3) 프롬프트 최적화 갱신 주기, (4) 테스트셋 정기 재검증 주기. 각 항목이 월 단위인지 분기 단위인지가 유지보수 비용을 좌우한다.

5. LLM 비용 상한 & 모델 업데이트 조항 — 2026년 핵심

가장 최근에 부상한 조항이자, 기존 템플릿에 가장 빠져 있는 항목이다. AI 개발 외주 비용 구조에서 개발비는 일회성이지만 LLM API 비용은 매월 반복된다. 월 사용자 수가 늘면 API 비용이 개발비의 수 배를 넘기는 것은 더 이상 예외적인 상황이 아니다. 이 때문에 계약서에는 두 가지 조항이 필요하다.

비용 상한 조항: 월 API 비용이 일정 금액을 초과할 경우 누가 부담하며, 어떤 최적화(모델 다운그레이드, 캐싱, RAG 재설계)를 우선 적용할지 사전 합의
모델 업데이트 조항: OpenAI·Anthropic·Google이 사용 중인 모델을 deprecate 하거나 신 모델을 출시했을 때, 마이그레이션 비용을 발주사·수주사 중 누가 부담하고 어떤 절차로 진행할지 명시

이 두 조항이 빠진 상태에서 런칭한 프로젝트가 6개월 후 비용 이슈로 멈춰 서는 사례가 이미 다수 관찰된다. 구체적인 계약서 샘플 문구와 비용 상한 시나리오는 treesoop.com의 외주 가이드에 조항별로 정리되어 있다.

AI 개발 외주 업체 선정 전 꼭 물어볼 질문

체크리스트만으로는 부족하다. 실제 계약 협상 테이블에서 꺼내야 할 질문 다섯 가지를 정리하면 다음과 같다.

"지난 1년간 납품한 AI 프로젝트 중, LLM 비용이 예산을 초과한 사례가 있었는가? 있었다면 어떻게 해결했는가?"
"이번 프로젝트에 투입될 엔지니어 이력서를 공유받을 수 있는가? 같은 인력이 유지보수 단계까지 유지되는가?"
"성능 KPI 검수용 테스트셋은 누가 만들며, 계약서 별첨으로 고정되는가?"
"기반 모델이 deprecate 되었을 때 마이그레이션은 몇 주 내에, 어떤 비용 구조로 진행되는가?"
"파인튜닝 모델 가중치와 프롬프트의 재사용 권리는 어느 쪽에 귀속되는가?"

이 다섯 질문에 구체적 숫자와 절차로 답변하지 못하는 외주 업체라면, AI 프로젝트 운영 경험이 아직 계약 구조에 반영되지 않았다고 볼 수 있다.

기술보다 조항이 프로젝트를 지킨다

AI 개발 외주의 성패는 킥오프 전에 절반이 결정된다. 기술 검증은 실패해도 재시도 비용이 상대적으로 예측 가능하지만, 계약 조항의 공백은 런칭 이후 수개월간 누적된 비용과 법무 리스크로 돌아온다. 특히 2026년 이후 AI 프로젝트는 '모델은 계속 바뀐다'는 전제를 계약서에 녹여내는 것이 기본이 되었다.

AI 개발 외주 체크리스트를 팀 내부에서 한 번 만들어 두면, 이후 업체 비교와 협상 속도가 눈에 띄게 달라진다. 2026년 기업의 AI 도입 로드맵 단계별 예산 배분과 파트너 평가 기준은 treesoop.com의 도입 가이드에서 사례와 함께 확인할 수 있다.