라벨이 작동원리인 게시물 표시

눈과 손이 달린 AI, OpenClaw(구 Moltbot / Clawdbot) , 그 소름 돋는 작동 원리

  "대체 이 녀석은 어떻게 내 컴퓨터 화면을 보고, 마우스를 정확히 클릭하는 걸까요?" 단순한 매크로라고 생각하셨다면 오산입니다. 오늘은 OpenClaw의 심장부라 할 수 있는 'Vision-to-Action' 메커니즘 을 공학적으로, 하지만 이해하기 쉽게 풀어보겠습니다. 1. 매크로와 에이전트의 결정적 차이: '지능'의 유무 우리가 흔히 아는 매크로는 "X:100, Y:200 좌표를 클릭해"라는 고정된 명령을 수행합니다. 만약 창의 위치가 바뀌거나 팝업창이 뜨면 매크로는 길을 잃고 멈춰버리죠. 하지만 OpenClaw와 같은 AI 에이전트 는 다릅니다. 인식(Perception): 실시간으로 화면을 캡처하여 현재 상황을 '이해'합니다. 추론(Reasoning): "비행기 티켓을 예매하려면 '조회' 버튼을 눌러야겠군"이라고 판단합니다. 실행(Action): 버튼의 위치가 어디에 있든 스스로 찾아가 클릭합니다. 이것이 바로 단순 매크로를 넘어선 '컴퓨터 유즈(Computer Use)' 기술의 본질입니다. 2. OpenClaw의 핵심 프로세스: V.A.C (Vision-Action Cycle) OpenClaw는 보통 다음과 같은 4단계 사이클을 0.5초~2초 간격으로 반복하며 작업을 수행합니다. ① 1단계: 실시간 스크린 캡처 (Screen Capture) OpenClaw는 실행되는 순간 사용자의 전체 화면 또는 특정 창의 스크린샷을 찍습니다. 이 이미지는 고해상도로 처리되어 연결된 AI 모델(Claude, GPT, Gemini 등)에게 전달됩니다. ② 2단계: 시각적 분석 (Vision Analysis) AI 모델은 전달받은 이미지를 분석합니다. "좌측 상단에 브라우저가 열려 있음" "중앙에 '로그인' 버튼이 배치됨" "현재 아이디 입력창에 커서가 깜빡이고 있음" ...