에이전트가 잘 돌수록 병목은 더 깊은 곳으로 간다
Bun과 Claude Code의 라이브 코딩 세션이 보여주는 것은 자동 PR 생성의 신기함이 아니다. 코드 작성, 테스트, 리뷰를 자동화할수록 병목은 검증과 의사결정으로 이동한다는 사실이다.
에이전트 데모를 볼 때 가장 쉬운 반응은 감탄이다.
이슈를 읽고, 버그를 재현하고, 테스트를 만들고, PR을 열고, 리뷰 코멘트를 고치고, CI 로그를 읽는다. 사람이 하루 종일 왔다 갔다 하던 일을 에이전트가 한 화면 안에서 처리한다. 당연히 신기하다.
하지만 더 중요한 건 신기함이 아니다.
병목이 이동한다는 사실이다.
Boris Cherny와 Jarred Sumner의 라이브 코딩 세션은 Bun repo에서 Claude Code를 어떻게 쓰는지 보여준다. 인상적인 장면은 자동 PR 자체보다 그 주변의 루프다. 이슈가 들어오면 봇이 재현을 시도하고, 실패를 테스트로 고정하고, 수정 PR을 만들고, Claude Code 리뷰가 미묘한 edge case를 찾고, CI와 리뷰 코멘트를 다시 읽으며 고친다.
이건 "코드 생성" 데모가 아니다.
작은 개발 조직의 반복 업무를 루프로 바꾸는 데모다.
예전에는 코드 작성이 병목이었다. 사람이 직접 구현해야 했고, 컨텍스트 스위칭 비용도 컸다. PR을 checkout하고, lint를 돌리고, 실패 로그를 읽고, 한 줄 고치고, 다시 push했다. 이런 작은 손동작이 개발 시간을 갉아먹었다.
Claude Code가 들어오면 이 중 일부가 사라진다.
그러면 문제가 끝날까. 아니다. 병목은 다음 층으로 내려간다. 코드 작성이 빨라지면 테스트가 병목이 된다. 테스트도 자동화되면 CI와 리뷰가 병목이 된다. 리뷰도 일부 자동화되면 더 깊은 검증이 병목이 된다. 결국 마지막에는 "이 변경이 맞는가", "이 방향으로 고치는 게 맞는가", "이 PR을 merge해도 되는가"가 남는다.
생산성이 오른다는 말은 병목이 없어진다는 뜻이 아니다.
병목이 더 추상적인 곳으로 이동한다는 뜻이다.
이 관점이 중요하다. 많은 팀은 AI 도입을 코드 작성 속도의 문제로만 본다. "몇 퍼센트 더 빨리 구현하나", "몇 줄을 AI가 썼나" 같은 지표를 본다. 하지만 실제 운영에서는 코드 작성이 빨라질수록 검증 시스템의 품질이 더 중요해진다.
에이전트가 PR을 많이 만들수록 사람은 더 많은 diff를 읽을 수 없다. 그러면 사람을 더 갈아 넣을 게 아니라, 에이전트가 자기 결과를 검증할 수 있는 구조를 만들어야 한다. 재현 스크립트, 테스트 명령, CI 로그 접근, 리뷰 코멘트 처리, 성능 측정, benchmark가 있어야 한다.
영상에서 말하는 hill climbing 감각도 여기와 맞닿아 있다.
모델에게 목표와 측정 방법을 주면, 모델은 반복해서 개선할 수 있다. 테스트가 실패하면 고치고, benchmark가 목표에 못 미치면 다시 시도하고, 리뷰 코멘트가 남으면 반영한다. 하지만 여기에는 조건이 있다. 측정 가능한 목표가 있어야 한다.
"좋게 만들어줘"는 루프가 되기 어렵다.
"이 테스트를 통과하게 해줘", "이 benchmark를 10% 낮춰줘", "이 재현 케이스를 실패에서 성공으로 바꿔줘"는 루프가 된다. 에이전트에게 필요한 것은 의욕이 아니라 계기판이다.
그래서 앞으로 좋은 개발 조직은 테스트를 더 귀찮은 의무로 보지 않을 가능성이 높다.
테스트는 사람을 위한 안전망이기도 하지만, 에이전트를 위한 목표 함수가 된다. CI는 단순한 gate가 아니라 에이전트가 자기 일을 끝낼 수 있는 feedback channel이 된다. 리뷰 코멘트는 사람이 던진 잔소리가 아니라 다음 실행을 유도하는 명령이 된다.
이 변화는 사람의 역할도 바꾼다.
사람이 모든 diff를 손으로 고치는 시대에서, 사람은 어떤 루프를 만들지 결정하는 쪽으로 이동한다. 어떤 이슈는 자동 재현 PR로 충분하고, 어떤 변경은 사람이 설계부터 잡아야 하며, 어떤 PR은 절대 auto-merge하면 안 되는지 정해야 한다.
에이전트가 잘 돌아갈수록 사람의 판단은 사라지지 않는다.
더 비싸진다.
왜냐하면 이제 사람은 코드 한 줄보다 시스템의 방향을 정하기 때문이다. 병목이 코드 작성에서 검증으로, 검증에서 계획으로, 계획에서 우선순위로 이동한다. 이 흐름을 못 읽으면 AI를 도입하고도 PR 더미 앞에서 막힌다.
라이브 코딩 세션의 가장 큰 메시지는 "AI가 PR을 만든다"가 아니다.
AI가 PR을 만들 수 있게 되면, 팀은 무엇을 검증할지 다시 설계해야 한다.
에이전트 시대의 핵심 질문은 이제 "누가 코드를 쓰는가"가 아니다.
"어떤 루프가 안전하게 닫히는가"다.