AI 추론 인프라에 $13B가 걸린 이유, 작은 팀이 볼 것

Baseten이 $1.5B 추가 조달에 나섰다. 지난 메가라운드가 끝난 지 몇 달도 안 됐는데. 기업가치는 $13B. 숫자가 크니까 '대기업들 세상 이야기'처럼 느껴질 수 있다. 그런데 이 뉴스에서 우리 같은 작은 팀이 읽어야 할 신호가 있다.

"inference gold rush"라는 표현이 핵심이다. AI 경쟁의 축이 모델 학습(training)에서 추론(inference) 인프라로 완전히 옮겨갔다는 선언이나 다름없다.

Baseten이 파는 것, 그리고 왜 지금인가

Baseten은 ML 모델을 프로덕션에 올려주는 인프라 플랫폼이다. 모델을 훈련시키는 게 아니다. 이미 만들어진 모델을 빠르고, 싸게, 안정적으로 "쓸 수 있게" 만드는 쪽 — 즉 inference serving 전문이다.

왜 이게 지금 $13B짜리 사업이 됐냐면, 모두가 LLM을 서비스에 연결하기 시작했기 때문이다. ChatGPT 이후로 "우리 서비스에도 AI를 붙여야지"라는 수요가 폭발했는데, OpenAI API 하나로 전부 해결되지 않는다. latency, throughput, 비용, 데이터 프라이버시 요구사항이 케이스마다 달라서 직접 serving하거나 전문 인프라 업체를 써야 한다. Baseten은 그 자리를 판다. 그리고 시장이 그 자리에 $13B를 걸고 있다.

결제·정산 자동화팀이 이 뉴스에서 놓치면 안 되는 것

우리가 돌리는 봇들 — 세금계산서 처리, 정산 이상감지, 크롤링 후 콘텐츠 판단 — 전부 inference다. 우리가 "AI를 쓴다"고 할 때 그게 곧 누군가의 inference 인프라 위에 올라타는 것이다.

Baseten 같은 회사가 이 밸류에이션을 받는다는 건 두 가지를 뜻한다. 첫째, inference 비용이 아직도 충분히 비싸다. 시장이 이만큼 돈을 붓는다는 건 문제가 안 풀렸다는 신호다. 둘째, 선택지가 복잡해진다. 이건 곧 "Anthropic API만 쓰면 돼"가 언제까지나 답이 아닐 수 있다는 말이기도 하다.

실제 숫자로 보자. haiku-4-5 기준 input 1M tokens $0.80, output 1M tokens $4. 봇 12개가 하루 각각 글 한 편씩, 편당 2,000 input + 1,500 output tokens를 쓴다면 월로 환산해 input 약 720만 토큰, output 약 540만 토큰. 비용은 input $5.76 + output $21.60, 합산 월 약 $27. 지금은 이 수준이라 "그냥 API 쓰면 된다"가 맞는 답이다. 그런데 봇이 30개로 늘고, 실시간 판단이 들어가기 시작하면 계산이 달라진다.

AI 안경으로 수능 수학 푼 유튜버가 보여준 것

최근 AI 안경을 쓰고 수능 수학 문제를 실시간으로 푸는 유튜버 영상이 화제가 됐다. 그 장면이 신기한 이유는 '스마트함'이 아니라 '빠름'이다. 카메라가 문제를 인식하고, 추론하고, 답을 돌려주는 데 체감 1~2초. 이게 가능하려면 edge inference 혹은 극도로 최적화된 serving이 전제다.

결제 현장에서 이 그림을 대입해보자. 사용자가 결제를 시도하는 순간 AI가 이상거래 여부를 판단해야 한다면, 허용 latency는 200ms 이하다. 이 케이스에서 Anthropic API 호출은 답이 안 된다 — 네트워크 왕복만으로도 100ms+가 날아가기 때문이다. 여기서 Baseten 같은 플랫폼이 의미 있어진다. GPU 클러스터를 더 가까이, 더 튜닝된 상태로 serving할 수 있기 때문이다.

우리가 아직 그 단계는 아니다. 하지만 "언제 API에서 벗어나야 하나"의 기준점을 지금부터 잡아두는 게 훨씬 낫다.

우리 팀이라면 어떻게 움직일까 — 실제 시나리오

현재 구조는 단순하다. 봇 → claude_cli(haiku) → CMS INSERT → discord notify. 비용과 complexity 모두 낮다. 이건 맞는 선택이고, 당장 inference 플랫폼을 도입할 이유가 없다.

그런데 내년에 정산 이상감지 봇을 실시간으로 전환한다고 가정해보자. 거래건당 AI 판단, 하루 5만 건 목표라면 초당 약 0.6건, latency 요구는 500ms 이내. 이 수준은 여전히 Anthropic API로 커버 가능하다. 단, 동시 요청 수 제한을 tier upgrade로 해결해야 한다.

하루 50만 건이 목표라면 이야기가 다르다. 초당 6건, burst 시 30건 이상. 여기서부터 전용 inference 인프라를 진지하게 검토해야 한다. 선택지는 셋이다.

Baseten 같은 managed inference platform은 세팅이 빠르고 GPU 운영을 몰라도 된다. 대신 비용 프리미엄이 있다 — 월 $2,000~$5,000 수준의 추가 지출은 각오해야 한다. AWS/GCP에 vLLM을 직접 올리면 통제권은 최대지만 운영 담당자가 필요하고 초기 세팅에 2~4주가 든다. 오픈소스 소형 모델을 self-hosting하면 장기적으로 API 비용의 1/3 수준까지 내려가지만 성능 타협이 따른다.

트레이드오프는 명확하다. 어느 쪽이 "맞다"는 없고, 팀 규모와 요구 latency에 따라 답이 달라진다.

지금 바로 써먹을 수 있는 시사점

월 inference 비용을 숫자로 추적해라. "아직 싸니까 괜찮아"는 기준점이 없는 말이다. 현재 월 $X를 쓰고 있고, 봇이 2배 늘면 $2X가 된다는 걸 미리 알아야 대응 타이밍을 잡는다. 지금 admin_db에 모델별 usage 로그가 없다면, 이번 달부터 남겨두는 것만으로도 반년 후에 인프라 결정을 훨씬 쉽게 할 수 있다.

봇마다 latency 요구사항을 명시해라. 콘텐츠 생성봇은 5초가 걸려도 괜찮다. 실시간 결제 판단은 500ms가 한계다. 이 두 케이스는 완전히 다른 인프라 전략을 요구하는데, 지금 이걸 구분해두지 않으면 나중에 통째로 다시 설계하게 된다.

Baseten, Modal, Replicate 등 inference 플랫폼의 가격 구조를 지금 파악해둬라. 실제 이전이 필요할 때 벤치마크를 처음부터 돌리면 늦다. 지금 부하가 낮을 때, 테스트 트래픽으로 비교해보는 비용이 훨씬 싸다. $13B 회사가 파는 서비스가 우리에게 맞는지는 직접 찍어봐야만 안다.

Baseten의 이번 라운드는 "AI가 프로덕션에서 더 많이, 더 실시간으로 쓰일 것"이라는 단 하나의 가정 위에 서 있다. 우리가 돌리는 봇들도 그 가정의 한 켠을 차지하고 있다. 지금이 인프라 선택의 기준점을 잡을 때다.

원문: AI News & Artificial Intelligence | TechCrunch