(1/4)AI가 도구를 바라봤을 때 자연스러운가
Note
이 글은 제가 elendirna라는 MCP 도구를 만들면서 도달한 일반화 가능한 프레임워크를, Claude (Anthropic), Codex(OpenAI), Gemini(Google) 와의 대화를 통해 종합 및 추출 결과입니다. 사고의 주체는 저이고, 표현의 작업은 Claude로 진행했습니다.
저는 직관과 working implementation을 가졌고, Claude 및 타 Agent들은 vocabulary와 narrative structure를 가져왔습니다. 이 분업의 명시화 자체가 이 글이 다루는 주제 "AI 도구를 사용자의 thinking medium으로 사용하는 법" 의 일부로 봐주시면 감사하겠습니다.
AI가 도구를 바라봤을 때 자연스러운가
도구가 인간에게 자연스러운지에 대한 논의는 흔하다. ergonomics라는 단어 자체가 그 작업의 이름이다. 의자가 등을 받쳐주는 각도, 키보드 키의 거리, IDE의 단축키 배치 — 모두 도구가 인간 신체와 인지에 자연스럽게 fit되는지를 따진다.
그런데 그 반대편의 질문을 던지는 사람은 드물다.
AI agent가 도구를 마주칠 때, 도구는 그 agent에게 자연스러운가?
이 질문이 낯설게 들리는 이유는 우리가 도구를 수동적인 것으로 가정하기 때문이다. 도구는 쓰인다. 도구가 누군가를 마주친다는 건 어색한 표현이다. 그러나 LLM agent에게 도구는 정확히 그렇다. Agent는 도구의 기능에 직접 접근하지 못한다. 도구의 description을 읽고, 그 description으로부터 이 도구가 무엇이며 언제 써야 하는가를 추론한다. Agent의 입장에서 도구는 description으로 자기를 설명하는 무언가다.
이 framing의 전환에서 출발하면, 익숙했던 질문들이 다시 새로 보인다.
왜 질문의 방향이 중요한가
기존의 agent design 문헌은 대체로 인간 중심이다. "어떻게 prompt를 잘 쓸 것인가", "어떤 system message가 agent의 행동을 잘 유도하는가", "어떤 식으로 instruction을 분해할 것인가." 모두 인간이 agent를 통제하는 방법에 대한 질문이다.
이 질문들이 무의미하지는 않다. 단지 agent가 도구를 마주칠 때의 경험 자체를 다루지 않는다. 인간이 prompt를 잘 쓴다고 해서, agent가 그 다음 단계에서 만나는 도구의 description이 자연스러운 것은 아니다. Prompt는 agent를 어디로 향하게 할 수 있지만, agent가 도착한 자리에서 도구를 어떻게 경험할지는 그 도구의 description에 달려 있다.
이게 중요한 이유는 agent의 자율성이 점점 커지고 있기 때문이다. 인간이 모든 step을 지시하는 시대에는 prompt가 모든 leverage를 가졌다. 그러나 agent가 multi-step plan을 자율적으로 실행하고, 중간에 도구를 선택하고, 결과를 기반으로 다음 step을 결정하는 시대에는, agent가 도구를 어떻게 읽는가가 작업의 성공과 실패를 가른다.
"자연스럽다"가 무슨 뜻인가
도구가 agent에게 자연스럽다는 건 무슨 뜻일까?
몇 가지 단서가 있다. 첫째, 도구의 description이 모호하지 않아야 한다. 두 도구의 description이 비슷하면 agent는 헷갈린다 — 이건 description ambiguity로 알려진 패턴이다. 둘째, 도구의 description이 왜 쓰는가를 전달해야 한다. 기능만 적힌 description은 agent가 언제 쓸지를 모르게 한다. 셋째, 도구의 결과가 다음 작업과 자연스럽게 연결되어야 한다. Agent가 도구를 호출한 후 결과를 보고 그 다음에 뭘 할지 알아낼 수 없다면, 그 도구는 그 agent의 작업 flow를 끊는다.
이런 단서들을 모으면 점점 agent-facing ergonomics라는 영역이 보인다. 인간 ergonomics가 신체와 인지의 fit에 대한 것이라면, agent ergonomics는 agent의 description-reading과 작업 induction의 fit에 대한 것이다.
이 framing이 열어주는 것
기존의 agent 작업 문제들 — agent가 도구를 부르지 않거나, 잘못 부르거나, 결과를 잘못 해석하는 — 이 agent 잘못이 아니라 도구 design 문제로 다시 보인다. Agent가 도구를 불편하게 느끼는 자리들이 있다. 그 자리들을 식별하고 도구 design을 바꾸면, 같은 agent가 같은 작업에서 훨씬 더 잘 작동한다.
그리고 이게 prompt engineering보다 더 leverage가 크다. Prompt는 한 번의 작업에 영향을 준다. 도구 design은 그 도구를 쓰는 모든 작업에 영향을 준다. 잘 디자인된 도구는 인간이 careful prompting을 하지 않아도 agent가 자연스럽게 일하게 한다.
"AI가 도구를 바라봤을 때 자연스러운가?" — 이 질문에 답을 찾는 작업이 시작점에 있다. 답은 아직 articulate되지 않았다. 하지만 working answer는 존재한다. 누군가는 도구를 디자인하고 있고, 그 도구가 작동한다. 작동하는 자리의 vocabulary를 정리하는 게 다음 작업이다.