AI 에이전트가 컴퓨터를 다루는 방법은 오랫동안 같은 구조였다. 화면을 스크린샷으로 포착하고, 텍스트 언어 모델이 "다음엔 뭘 클릭할까"를 추론한 뒤, 그 결론을 API 명령으로 변환해 실행한다1. 스크린샷은 순간 포착이라 작업의 연속 흐름을 잃고, 텍스트용으로 설계된 모델이 픽셀을 해석하는 건 구조적 불일치다. 그 방식을 처음부터 뒤집은 회사에, 세쿼이아·스파크 캐피털과 Andrej Karpathy·스탠리 드러켄밀러가 7500만 달러(약 975억원)를 넣었다1.

1,100만 시간 영상 수집FDM-1 영상 네이티브 학습50배 토큰 효율AI 에이전트 상용화
7500만 달러시리즈A · 기업가치 약 5억 달러, 세쿼이아·스파크 참여
~50배경쟁사 대비 토큰 효율 · 자체 비디오 인코더 적용
1,100만 시간컴퓨터 사용 영상 학습 데이터셋 규모

왜 '영상'이었나 — 스크린샷이 만든 세 가지 구조적 결함

AI 에이전트의 상업화가 가속되면서 컴퓨터를 자율적으로 제어하는 능력이 핵심 경쟁 과제로 떠올랐다. 앤트로픽의 클로드 컴퓨터 유즈와 오픈AI 의 오퍼레이터가 이 카테고리를 열었다. 그런데 두 서비스 모두 같은 아키텍처 위에 서 있다. 화면을 스크린샷으로 캡처하고, 대형 언어 모델이 그 이미지를 분석해 다음 동작을 텍스트로 추론한 뒤, API 호출로 마우스·키보드 동작을 실행하는 구조다1.

이 구조의 문제는 세 곳에서 동시에 터진다. 첫째, 연속성의 부재. 스크린샷은 순간 포착이라 "파일이 다운로드되는 중", "팝업이 닫히는 중", "화면이 전환되는 중" 같은 동적 상태를 구분하지 못한다. 영상이 전달하는 픽셀 흐름의 연속성이 사라지는 순간, 에이전트는 작업의 문맥을 잃는다. 둘째, 도구와 과제의 불일치. 텍스트를 처리하도록 훈련된 LLM 에 이미지를 던지고 픽셀 좌표를 추론하도록 요청하는 건, 모델의 최적화 방향과 어긋난다. 셋째, 직렬 구조의 속도 손실. 스크린샷 캡처 → LLM 추론 → API 변환의 세 단계가 순차 실행되므로 각 단계의 지연이 누적된다1.

스탠다드 인텔리전스는 이 세 문제를 동시에 해결하는 방법으로 영상 네이티브 아키텍처를 선택했다. 자체 비디오 인코더를 통해 영상 픽셀 흐름을 직접 처리하는 FDM-1 모델을 개발했다1. 텍스트 LLM 에 화면을 "설명"해주는 중간 번역 레이어가 없다. 모델 자체가 영상을 읽는 구조로 처음부터 설계됐다. 이 구조를 학습시키기 위해 쌓은 데이터는 컴퓨터 사용 영상 1,100만 시간 분량이다1.

AI 에이전트 시장의 잠재 규모는 "컴퓨터로 하는 모든 지식 노동"으로 언급된다. 그 시장을 누가 차지하는지는 결국 어떤 아키텍처가 신뢰할 수 있을 만큼 안정적으로 작동하느냐에 달려 있다. 스크린샷 기반 방식의 구조적 한계가 실제 생산성 도구로서의 신뢰를 제한한다면, 영상 네이티브 방식은 그 신뢰 갭을 채울 수 있다는 논리다.

스크린샷 vs 영상 네이티브 — 같은 작업, 다른 구조

두 방식의 차이는 아키텍처의 기초부터 시작된다. 스크린샷 기반 에이전트는 기존 LLM 인프라 위에 시각 레이어를 추가하는 방식이다. 영상 네이티브 방식은 처음부터 시간축을 가진 입력을 처리하도록 설계된다. 아래 표는 같은 컴퓨터 작업을 수행할 때 두 방식이 어떻게 다른지를 보여준다1.

비교 항목스크린샷 기반 LLM 에이전트FDM-1 (스탠다드 인텔리전스)
입력 방식정지 스크린샷 → 텍스트 추론영상 픽셀 흐름 직접 처리
연속성 파악드래그·로딩·팝업 등 동적 상태 인식 불가30FPS 영상으로 작업 흐름 연속 추적
토큰 효율표준 멀티모달 토크나이저 수준자체 인코더로 약 50배 효율
컨텍스트 처리단일 프레임 기준100만 토큰 창에서 2시간 영상 처리
모델 설계 목적텍스트 LLM 의 시각 과제 전용영상 네이티브 전용 아키텍처

FDM-1 이 기술 우위를 만드는 세 가지 레이어

  1. 데이터: 1,100만 시간 컴퓨터 사용 영상 수집 컴퓨터를 실제로 사용하는 영상 1,100만 시간은 일반 웹 크롤링으로 확보할 수 없는 종류의 데이터다1. 이 데이터셋에는 다양한 소프트웨어 환경, 작업 유형, 사용자 행동 패턴이 담겨야 하며, 그 다양성과 품질이 FDM-1 의 성능 상한선을 결정한다. 이 규모의 데이터셋 자체가 경쟁자가 단기간에 복제하기 어려운 첫 번째 해자다.
  2. 모델: 영상 네이티브 FDM-1 아키텍처 텍스트 LLM 에 비전 레이어를 덧붙이는 방식이 아니다. 영상을 네이티브 입력으로 처리하도록 설계된 FDM-1 전용 아키텍처다1. 자체 개발한 비디오 인코더가 핵심으로, 경쟁사 대비 약 50배의 토큰 효율을 달성했다1. 토큰 효율은 처리 속도와 비용에 직결되므로, 상용화 단계에서 결정적인 경쟁 변수가 된다.
  3. 효율: 100만 토큰 창에서 30FPS 2시간 처리 100만 토큰 컨텍스트 창 안에서 30FPS 기준 2시간 분량의 영상을 처리할 수 있다1. 멀티스텝 컴퓨터 작업 — 예컨대 여러 앱을 오가며 데이터를 입력하고 파일을 이동하는 작업 — 을 끊김 없이 추적하는 데 필요한 컨텍스트 규모다. 기존 스크린샷 방식으로는 구조적으로 달성하기 어려운 수준이다.
"AI 에이전트가 컴퓨터를 다루는 방식을 처음부터 다시 설계한다."— 스탠다드 인텔리전스 공식 포지셔닝

The Bet — 왜 카파시와 드러켄밀러가 이 베팅을 샀나

The Bet

이번 라운드의 투자자 구성이 베팅의 성격을 설명한다. 세쿼이아와 스파크 캐피털은 실리콘밸리의 최상위 VC 로, 이미 오픈AI·앤트로픽 등 현재 AI 에이전트 시장을 지배하는 회사들의 주요 투자자이기도 하다1. 즉, 스크린샷 기반 에이전트의 수혜를 보는 두 VC 가 동시에 그 방식을 대체할 아키텍처에도 베팅했다는 뜻이다. 포트폴리오 헤지가 아니라면, 아키텍처 전환 자체를 확신하고 있다는 신호로 읽힌다.

Andrej Karpathy 는 테슬라 Autopilot·FSD 팀의 원설계자다1. 연속 영상 프레임을 실시간 처리해 차량 제어 명령을 내리는 시스템의 실제 상용화를 가장 깊이 경험한 엔지니어 중 한 명이다. 자율주행이 스크린샷이 아닌 영상 흐름을 처리해야 했던 것처럼, AI 에이전트 역시 영상 네이티브 처리가 결국 필수가 된다는 테제를 그가 가장 잘 검증할 수 있다. 그의 투자 참여는 영상 네이티브 AI 에이전트 아키텍처의 기술적 타당성에 대한 가장 신뢰도 높은 외부 확인이다. 스탠리 드러켄밀러는 기술 사이클에서 타이밍을 핵심 변수로 삼는 투자자로 알려져 있다1. AI 에이전트 인프라 레이어가 결정되는 시점이 지금이라는 판단으로 읽힌다. 한번 표준이 정해진 인프라 레이어는 전환 비용이 높다. 먼저 기준을 정의한 회사가 유리하다.

이 베팅의 테제는 단순하다: 스크린샷 기반 에이전트는 결국 영상 네이티브 방식으로 수렴하고, FDM-1 은 그 전환의 인프라 레이어가 된다. 빅테크가 기존 스택을 전면 교체하기 어려운 동안, 스탠다드 인텔리전스는 다음 세대 아키텍처의 기준을 먼저 정의하려 한다1.

다음 12개월에 지켜볼 지표 3개

  1. FDM-1 상용 API 출시 및 실사용 태스크 완료율 기술 우위는 프로덕션에서 검증된다. 벤치마크가 아니라 실제 엔터프라이즈 환경에서 멀티스텝 컴퓨터 작업을 얼마나 자율적으로 완료하는지가 핵심이다. 스크린샷 기반 경쟁 에이전트 대비 태스크 완료율과 오류율에서 의미 있는 차이가 나타나는지가 첫 번째 관문이다.
  2. 공개 벤치마크에서의 성능 격차 클로드 컴퓨터 유즈·오픈AI 오퍼레이터와 표준화된 태스크 완료율 비교가 시장에 나올 경우, 영상 네이티브 방식의 실질적 우위가 수치로 입증된다. 반대로 격차가 좁다면 아키텍처 차별화의 실질 가치에 의문이 생기고, 약 5억 달러의 기업가치도 도전받는다1.
  3. 엔터프라이즈 계약 규모 및 ARR 공개 약 975억원 규모 시리즈A 이후, 초기 기업 고객 레퍼런스와 연간 반복 매출 성장 속도가 다음 라운드 밸류에이션을 결정한다. 세쿼이아·스파크가 설정한 약 5억 달러 기업가치를 정당화할 첫 번째 상업적 증거가 여기서 나온다1. 특히 어떤 산업군이 이 에이전트를 실제 워크플로에 통합하는지가 시장 포지셔닝의 핵심 단서가 될 것이다.
결국 스탠다드 인텔리전스는 AI 에이전트의 '눈'을 다시 설계한 회사다.
스크린샷이 아닌 영상으로, 텍스트 추론이 아닌 픽셀 흐름으로 — 다음은 그 눈이 프로덕션에서 얼마나 잘 보는지다.