라벨이 ComputerUse인 게시물 표시

눈과 손이 달린 AI, OpenClaw(구 Moltbot / Clawdbot) , 그 소름 돋는 작동 원리

  "대체 이 녀석은 어떻게 내 컴퓨터 화면을 보고, 마우스를 정확히 클릭하는 걸까요?" 단순한 매크로라고 생각하셨다면 오산입니다. 오늘은 OpenClaw의 심장부라 할 수 있는 'Vision-to-Action' 메커니즘 을 공학적으로, 하지만 이해하기 쉽게 풀어보겠습니다. 1. 매크로와 에이전트의 결정적 차이: '지능'의 유무 우리가 흔히 아는 매크로는 "X:100, Y:200 좌표를 클릭해"라는 고정된 명령을 수행합니다. 만약 창의 위치가 바뀌거나 팝업창이 뜨면 매크로는 길을 잃고 멈춰버리죠. 하지만 OpenClaw와 같은 AI 에이전트 는 다릅니다. 인식(Perception): 실시간으로 화면을 캡처하여 현재 상황을 '이해'합니다. 추론(Reasoning): "비행기 티켓을 예매하려면 '조회' 버튼을 눌러야겠군"이라고 판단합니다. 실행(Action): 버튼의 위치가 어디에 있든 스스로 찾아가 클릭합니다. 이것이 바로 단순 매크로를 넘어선 '컴퓨터 유즈(Computer Use)' 기술의 본질입니다. 2. OpenClaw의 핵심 프로세스: V.A.C (Vision-Action Cycle) OpenClaw는 보통 다음과 같은 4단계 사이클을 0.5초~2초 간격으로 반복하며 작업을 수행합니다. ① 1단계: 실시간 스크린 캡처 (Screen Capture) OpenClaw는 실행되는 순간 사용자의 전체 화면 또는 특정 창의 스크린샷을 찍습니다. 이 이미지는 고해상도로 처리되어 연결된 AI 모델(Claude, GPT, Gemini 등)에게 전달됩니다. ② 2단계: 시각적 분석 (Vision Analysis) AI 모델은 전달받은 이미지를 분석합니다. "좌측 상단에 브라우저가 열려 있음" "중앙에 '로그인' 버튼이 배치됨" "현재 아이디 입력창에 커서가 깜빡이고 있음" ...

About : OpenClaw? Moltbot? 이름만 3번 바뀐 이 녀석, 써도 될까요? (OpenClaw 시리즈 정주행 가이드)

1. 이름의 변천사 뒤에 숨은 거대 IT 기업의 견제 이 프로젝트가 처음 'Clawdbot'이라는 이름으로 공개되었을 때, 업계는 경악했습니다. 단순히 챗봇과 대화하는 수준을 넘어, 사용자의 마우스와 키보드를 직접 제어하여 웹 서핑을 하고 엑셀 작업을 수행하는 능력을 보여주었기 때문입니다. 하지만 앤트로픽(Anthropic) 사의 AI 모델인 'Claude(클로드)'와의 상표권 유사성 문제가 제기되면서, 프로젝트는 급히 'Moltbot'으로, 그리고 현재의 'OpenClaw'로 이름을 바꿔야 했습니다. 이러한 급격한 리브랜딩 과정은 역설적으로 이 툴이 가진 파괴력이 기존 빅테크 기업들에게 얼마나 위협적인지를 증명하는 사례가 되었습니다. 2. '컴퓨터 유즈(Computer Use)' 기술의 대중화 OpenClaw의 핵심은 '눈(Vision)'과 '손(Action)'입니다. 기존의 AI가 텍스트를 생성하는 데 그쳤다면, OpenClaw는 화면의 스크린샷을 찍어 현재 상태를 분석하고, 버튼의 위치를 찾아 클릭합니다. 기존 방식과의 차이: 예전에는 매크로를 짜기 위해 복잡한 코딩이 필요했지만, 이제는 "이 사이트에서 가장 저렴한 비행기 티켓을 찾아줘"라는 일상적인 명령만으로 AI가 직접 브라우저를 열고 결제 직전 단계까지 작업을 수행합니다. 오픈 소스의 힘: 이 강력한 기능을 누구나 무료로 내려받아 자신의 PC에서 돌릴 수 있게 되면서, 개인용 AI 비서 시대가 한 걸음 더 가까워졌습니다. 3. 양날의 검: 보안과 개인정보 탈취 리스크 권한이 강력할수록 위험도 커집니다. OpenClaw는 사용자의 화면을 실시간으로 캡처하고 키보드 입력을 제어합니다. 만약 이 오픈 소스 코드에 악의적인 '백도어'가 심어져 있다면, 사용자의 은행 비밀번호나 개인 메시지가 고스란히 유출될 수 있는 치명적인 구조입니다. 실제로 최근 이 프로젝트의 인기에 편...