추론 인프라 전쟁이 결제 자동화를 바꾼다

15억 달러가 말해주는 것: 추론은 이제 산업 인프라다

Baseten이 기업가치 130억 달러(약 17조 원)에 15억 달러(약 2조 원)를 조달하려 한다는 소식은, AI 투자 뉴스가 범람하는 지금도 특별하게 읽힌다. 직전 대형 라운드를 마친 지 불과 몇 달 만에 다시 이 규모의 자금을 끌어모은다는 것은 단순한 스타트업 성장 스토리가 아니다. 이는 AI 추론(inference) 인프라가 AWS, GCP와 같은 반열의 산업 기반시설로 진입하고 있다는 구조적 신호다.

여기서 '추론'이란 학습이 완료된 AI 모델을 실제로 실행해 결과를 뽑아내는 과정 전체를 말한다. Claude에 질문을 던지든, 자동화 파이프라인에서 영수증을 파싱하든, 정산 데이터에서 이상 패턴을 탐지하든 — 모두 추론이다. 그리고 이 추론에는 토큰당 비용, 응답 지연(latency), 처리량(throughput)이라는 세 가지 현실적 제약이 함께 따른다. Baseten 같은 전문 추론 인프라 기업에 수조 원이 집중되는 이유는, 이 세 가지를 동시에 최적화하는 일이 생각보다 훨씬 어렵고, 그 해결에 충분한 돈이 된다는 시장의 판단이다.

결제·정산 자동화 팀이 이 뉴스에서 읽어야 할 것

결제·정산·자동화를 직접 운영하는 소규모 팀 입장에서 이 뉴스의 핵심은 투자 규모가 아니다. 핵심은 '추론 인프라가 전문화·분화되고 있다'는 사실 자체다. 이전까지는 OpenAI API를 직접 호출하거나, AWS Bedrock을 얹거나, 자체 GPU 서버를 운영하는 것 이상의 선택지가 사실상 없었다. 그런데 Baseten 같은 플레이어는 특정 모델을 특정 하드웨어에 최적화해 더 낮은 레이턴시와 더 높은 처리량을 제공하는 '추론 전문 레이어'를 만들고 있다. 이 레이어의 등장은 우리 같은 팀의 선택지를 넓히는 동시에, 선택을 잘못하면 더 깊은 벤더 의존도에 빠질 수 있다는 양날의 칼이기도 하다.

지금 우리 팀이 운영하는 자동화 파이프라인을 예로 들면 그 현실이 바로 보인다. 매일 수백 건의 정산 데이터를 LLM으로 파싱하고, 예외 건을 분류하고, 이상 패턴을 탐지한다. 각 단계마다 API 호출이 발생하고, 그 비용은 월 단위로 조용히 쌓인다. 현재 Claude Sonnet 기준 입력 1M 토큰당 약 3달러, 출력 1M 토큰당 약 15달러다. 하루 평균 10만 토큰 호출이면 월 약 40~60달러 수준이지만, 파이프라인이 10배 규모로 성장하는 순간 이 비용 구조를 그대로 가져갈 수 없다. 바로 이 지점에서 전문 추론 인프라의 선택지가 달라진다.

숫자로 본 트레이드오프: 레이턴시 vs. 비용 vs. 처리량

추론 인프라를 선택할 때 실제로 마주치는 트레이드오프는 세 축으로 나뉜다. 이를 감이 아닌 숫자로 이해하는 것이 먼저다.

레이턴시 측면에서, 결제 사기 탐지처럼 실시간 판단이 필요한 경우 500ms 이상의 응답 지연은 UX 문제를 넘어 승인율 저하로 직결된다. 반면 야간 배치 정산 파이프라인에서는 5초 응답도 전혀 문제없다. Baseten은 특정 모델을 전용 GPU에 상주(warm)시켜 콜드 스타트 없이 응답하는 구조를 핵심 가치로 내세운다. 이는 On-demand API 방식 대비 첫 토큰 응답 시간(TTFT)을 최대 5~10배까지 줄일 수 있는 구조적 차이다. 단, 이 warm 인스턴스는 유휴 시간에도 비용이 발생하므로, 트래픽이 불규칙한 팀에겐 오히려 낭비가 된다.

비용 측면에서는 더 흥미로운 계산이 있다. 전문 추론 플레이어는 범용 대형 모델 API보다 저렴하게 오픈소스 모델을 서빙하거나, 소형 파인튜닝 모델로 동일 품질을 제공하는 방식을 택한다. 정산 분류에 특화된 7B 파라미터 파인튜닝 모델을 전문 인프라에서 돌리면, 범용 대형 모델 대비 토큰 비용을 70~80% 줄이면서도 해당 태스크의 정확도는 오히려 높아지는 경우가 실제로 보고된다. 문제는 파인튜닝 비용(초기 데이터 가공 + 학습 비용)과 모델 유지 부담이 별도로 발생한다는 점이다. 월 처리량이 일정 임계치를 넘기 전까지는 오히려 비용이 역전될 수 있다.

우리 팀이라면 어떻게 적용할까: 실제 시나리오 3가지

시나리오 1 — 정산 예외 처리 배치 자동화: 매월 말 대량으로 발생하는 정산 예외 건을 LLM으로 자동 분류하는 파이프라인을 가정하자. 이 경우 레이턴시보다 처리량과 비용이 압도적으로 중요하다. Baseten의 Dedicated Deployment보다 Anthropic Batch API(최대 50% 할인)나 오픈소스 Llama 계열을 자체 서빙하는 방식이 지금 시점에서는 더 경제적이다. 다만 Baseten은 이런 오픈소스 모델 서빙에도 강점이 있으므로, 파인튜닝 데이터가 6개월치 이상 쌓이는 시점에 전환하는 로드맵을 지금부터 그려두는 것이 합리적이다.

시나리오 2 — 실시간 이상 거래 탐지: 결제 요청이 들어오는 순간 LLM으로 이상 패턴을 판단해야 한다면, TTFT 200ms 이하가 실질적 요구사항이 된다. 이 경우 전문 추론 인프라의 warm 엔드포인트가 의미 있다. 단, 우리 팀 규모에서는 Baseten과 직접 계약을 맺기보다, 이를 이미 추상화한 게이트웨이 레이어를 통해 접근하는 것이 운영 오버헤드를 크게 줄인다. 목적은 추론 제공사를 직접 관리하는 게 아니라, 빠른 추론이라는 기능을 확보하는 것이다.

시나리오 3 — 태스크 기반 모델 라우팅: 모든 LLM 호출에 동일한 모델을 쓰는 것은 비용 낭비다. '영수증 날짜 추출'이나 '금액 파싱' 같은 단순 태스크는 소형 모델로도 99% 이상 정확도를 낼 수 있고, '복잡한 계약 조건 해석'이나 '다수 예외 건의 패턴 요약'은 대형 모델이 필요하다. Baseten 같은 플레이어의 투자 확대는 이런 멀티모델 라우팅 인프라가 빠르게 성숙한다는 뜻이기도 하다. 지금부터 우리 파이프라인의 각 스텝을 태스크 복잡도 기준으로 분류해두면, 향후 모델 라우팅 적용 시 즉시 활용 가능한 지도가 만들어진다.

AI 히어로즈의 함정: 벤더 락인 리스크를 빠뜨리지 마라

AI 추론 인프라 투자 붐은 분명 좋은 소식이지만, 작은 팀에게 경고도 함께 온다. 한때 이른바 'AI 히어로즈'로 불렸던 스타트업들 중 일부는 급격한 피벗, 인수, 또는 가격 정책 변경으로 API 호환성이 갑작스럽게 끊겼다. 수조 원을 조달한 기업도 예외가 아니다 — 오히려 대규모 투자를 받은 기업일수록 수익화 압력이 높아지면서 고객 협상력이 줄어드는 시점이 빨리 온다.

실용적 대응은 '추론 추상화 레이어'를 자체적으로 두는 것이다. LiteLLM 같은 오픈소스 게이트웨이를 내부 인프라에 두면, 백엔드 추론 제공사를 교체해도 애플리케이션 코드 변경 없이 전환할 수 있다. 도입 비용은 사실상 반나절의 설정 작업뿐이고, 이후에는 어떤 벤더와 협상할 때도 "바꾸면 그만"이라는 현실적인 레버리지가 생긴다. 지금 당장 Baseten을 쓰지 않더라도, 이 추상화 레이어 설치는 오늘 당장 할 수 있는 가장 작고 가장 가치 있는 인프라 작업이다.

지금 당장 써먹을 수 있는 실행 시사점

첫째, 자동화 파이프라인의 LLM 호출을 인벤토리화하라. 어떤 스텝에서 얼마나 호출하는지, 평균 입출력 토큰은 얼마인지, 레이턴시 요구사항은 실시간인지 배치인지를 스프레드시트 한 장에 정리하라. 이 데이터 없이 내리는 추론 인프라 선택은 전부 감에 의존하는 것이다. 인벤토리가 있어야 어디에 어떤 최적화가 필요한지 보인다.

둘째, 월별 추론 비용을 자동화 ROI 대시보드에 올려라. '자동화가 절감한 인건비 대비 추론 비용 비율'을 매월 추적하지 않으면, 규모가 커질 때 단위 경제가 역전되는 순간을 포착하지 못한다. 구체적 목표 지표는 '추론 비용 / 처리한 건수'다. 이 숫자가 분기 내내 일정하거나 줄어들고 있다면 잘 관리되고 있는 것이고, 조용히 올라가고 있다면 지금이 모델 라우팅 또는 인프라 전환을 검토할 타이밍이다.

셋째, 추론 추상화 레이어를 지금 설치하라. LiteLLM이든 자체 wrapper 함수든, 모델 명칭과 API 엔드포인트가 애플리케이션 코드에 하드코딩되지 않게 하라. 이 작업은 반나절이면 된다. 지금 당장 Baseten을 쓸 계획이 없어도 상관없다 — 나중에 옮길 때 비용이 거의 0이 되는 구조를 미리 만드는 것이다.

넷째, 파인튜닝용 데이터를 지금부터 구조화해 쌓아라. Baseten 같은 전문 추론 인프라의 핵심 가치 제안 중 하나는 '특화 소형 모델 서빙의 경제성'이다. 우리 정산 데이터, 예외 처리 결과, 분류 레이블을 지금부터 구조화된 형태로 저장해두면, 6개월~1년 후 파인튜닝 전환 시 즉시 활용 가능한 자산이 된다. 데이터는 지금부터 쌓지 않으면 나중에 소급할 수 없다. 이 판단을 미루는 비용은 시간이 지날수록 기하급수적으로 커진다.

원문: AI News & Artificial Intelligence | TechCrunch