AI 추론 시장에서 오랫동안 판도는 두 세력이 나눠 왔다. 프런티어 AI 기업들은 독자 API로 울타리를 쳤고, 빅테크 클라우드는 자사 인프라 위에 AI 서비스를 올리려 했다1. 그 어디에도 속하지 않겠다는 독립 추론 클라우드가 조용히 자라던 자리에, 엔비디아와 삼성넥스트까지 이름을 올린 1억700만 달러가 붙었다1.
왜 '독립 추론 클라우드'였나 — 두 세력 사이의 진공이 시장이 됐다
오픈AI나 앤트로픽 같은 프런티어 AI 기업들은 독자 모델과 독자 API를 동시에 밀어붙인다. 이들의 이해관계는 단순하다. 자사 모델을 쓸수록 수익이 난다. 반대편에서 아마존·구글·마이크로소프트는 자사 클라우드 위에 AI 추론을 얹어 전체 인프라 비용을 끌어올리는 전략을 쓴다1. 개발자 입장에서 두 경로 모두 종속을 의미한다.
딥인프라는 2022년 미국에서, 이 두 세력 사이의 빈틈을 겨냥해 창업됐다1. 핵심 명제는 두 가지였다. 첫째, GPU를 직접 소유한다. 공유 클라우드 인프라가 아닌 미국 내 8개 데이터센터에 하드웨어를 직접 두고 운영한다1. 원가 구조가 달라진다. 둘째, 오픈소스 모델을 OpenAI 호환 API로 공급한다. 개발자가 기존 코드를 거의 수정하지 않고 전환할 수 있다. 190개 이상의 오픈소스 모델이 이 방식으로 제공된다1.
결과는 숫자로 드러났다. 시리즈A 이후 처리 토큰 양이 25배 증가했고1, 현재 딥인프라는 주당 약 5조 토큰을 처리한다1. 이 수치는 그냥 성장 곡선이 아니다. 독립 추론 클라우드라는 카테고리 자체가 실존한다는 증거다. 개발자들이 빅테크 클라우드와 프런티어 AI API 바깥에서 대안을 실제로 선택하고 있다는 의미다.
이번 라운드의 구성이 의미심장하다. 500 Global과 조르주 하릭(Georges Harik)이 공동으로 주도했고1, 여기에 엔비디아와 삼성넥스트, 그리고 서버 하드웨어 기업 수퍼마이크로까지 이름을 올렸다1. GPU 제조사와 반도체 공급망, 한국계 대기업 벤처 부문이 동시에 독립 추론 클라우드에 직접 투자한다. 인프라 생태계 전반이 이 회사에 이해관계를 갖기 시작했다는 신호다.
추론 인프라 구조 비교 — 전통 빅테크 클라우드 vs 딥인프라
| 영역 | 전통 빅테크 클라우드 | 딥인프라 |
|---|---|---|
| 모델 선택권 | 자사 또는 제휴 모델 위주, 오픈소스 접근 제한적 | 190개 이상 오픈소스 모델, 선택 제약 없음1 |
| GPU 인프라 | 공유 멀티테넌트 풀, 원가 불투명 | 미국 8개 데이터센터 직접 소유·운영1 |
| API 호환성 | 독자 SDK·API 체계, 전환 비용 발생 | OpenAI 호환 API, 코드 수정 최소화1 |
| 가격 구조 | 클라우드 플랫폼 마진 포함, 단가 높음 | 직접 소유 인프라 기반 원가 근접 토큰 단가 |
| 종속 리스크 | 플랫폼 정책·모델 변경에 종속 | 특정 모델·벤더 종속 없는 중립 공급자1 |
딥인프라가 토큰 25배를 만든 세 가지 구조
- GPU 직접 소유 — 원가 우위가 가격 우위로 딥인프라는 다른 회사의 클라우드 위에 서비스를 올리지 않는다. 미국 내 8개 데이터센터에 GPU를 직접 소유하고 운영한다1. 이 구조는 단순한 비용 절감이 아니다. 공유 인프라 위에서는 불가능한 추론 워크로드 전용 최적화가 가능해진다. 이번 라운드에 서버 하드웨어 기업 수퍼마이크로(Supermicro)가 참여한 것도 이 구조와 무관하지 않다1. 공급망 전반이 이해관계를 함께 가져가는 구조다.
- OpenAI 호환 API — 개발자 획득 비용을 제로로 새로운 API 체계를 배우게 하는 것은 개발자 획득의 가장 큰 마찰이다. 딥인프라는 OpenAI 호환 API를 선택함으로써 이 마찰을 제거했다1. 기존에 다른 모델을 쓰던 개발자가 딥인프라로 전환할 때 코드 수정이 거의 없다. 190개 이상의 오픈소스 모델이 이 인터페이스로 접근 가능하다1. 폭 넓은 모델 선택지와 낮은 전환 비용의 조합이 성장의 첫 번째 엔진이었다.
- 25배 성장 — 규모 경제 임계점 진입 시리즈A 이후 딥인프라의 처리 토큰 양은 25배 증가했다1. 현재 주당 약 5조 토큰을 처리한다1. 이 규모는 두 가지 의미를 갖는다. 하나는 단가다. 토큰 볼륨이 클수록 GPU 활용률이 높아지고 단위 원가는 내려간다. 다른 하나는 최적화 데이터다. 추론 패턴과 모델별 부하가 쌓일수록 인프라 튜닝의 정밀도가 높아진다. 이번 시리즈B는 이 임계점을 더 빠르게 확장하기 위한 자본이다.
The Bet — 오픈소스 추론의 GPU 레이어를 누가 갖느냐
엔비디아가 딥인프라에 투자한 이유는 표면적으로 단순해 보인다. 독립 추론 클라우드가 성장할수록 GPU 수요가 늘어난다1. 그러나 진짜 베팅은 더 구조적이다. 오픈소스 모델의 성능이 프런티어 모델을 빠르게 추격하고 있다. 이 추세가 이어진다면 추론 시장의 무게 중심은 "어떤 모델을 쓰느냐"에서 "어떤 인프라 위에서 쓰느냐"로 이동한다. 모델이 범용재가 되는 세계에서, 인프라 레이어를 가진 쪽이 수익을 가져간다. 딥인프라의 직접 소유 GPU 인프라는 빅테크 클라우드가 단기간에 복제하기 어렵다. 빅테크는 멀티테넌트 범용 클라우드를 최적화해야 하고, 프런티어 AI 기업들은 자사 모델 외의 추론을 적극적으로 지원할 유인이 없다1. 190개 이상의 오픈소스 모델1을 하나의 API 아래에 두는 중립 공급자의 역할은, 시장이 커질수록 더 희소해진다. 삼성넥스트가 이름을 올린 것도 같은 맥락에서 읽힌다1. 반도체 생태계 전반이 오픈소스 추론 인프라에 이해관계를 갖기 시작했다는 신호다. 이 베팅은 단순한 성장 투자가 아니라, 차세대 AI 인프라 레이어의 표준 자리를 선점하려는 포지셔닝이다.
다음 12개월에 지켜볼 지표 3개
- 주당 처리 토큰 — 5조에서 어디까지 현재 주당 5조 토큰1이 다음 12개월 안에 어떤 궤도를 그리느냐가 핵심이다. 시리즈A 이후 25배 성장1이 시리즈B 이후에도 유사한 기울기를 보이는지 여부는, 독립 추론 클라우드 카테고리의 실질적 성장성을 판단하는 직접 지표다.
- 데이터센터 확장 — 미국 8개 이후의 지리적 범위 현재 미국 내 8개 데이터센터1가 이번 시리즈B 자금을 통해 어떻게 확장되는지가 두 번째 신호다. 지역 확장은 레이턴시 경쟁력과 직결된다. 데이터 주권 이슈가 커지는 글로벌 시장에서 비미국 지역 GPU 인프라 확보는 고객 다변화의 전제 조건이 될 것이다.
- 모델 포트폴리오 — 190개 너머의 신규 아키텍처 지원 속도 190개 이상의 오픈소스 모델1이 어떤 속도로 업데이트되느냐가 세 번째 지표다. 오픈소스 모델 생태계는 빠르게 움직인다. 새로운 아키텍처를 얼마나 빠르게 지원하느냐는, 딥인프라가 오픈소스 추론의 기준점으로 자리잡을 수 있는지를 가르는 척도다.
엔비디아가 그 레이어에 직접 돈을 넣은 이유가, 다음 이야기다.


