A급 천 명을 모아도 S급 문제는 못 푼다

약한 모델을 천 개 돌리면 강한 모델이 될까. 물량이 통하는 문제와 등급이 천장인 문제는 따로 있다. 그 경계를 가르는 건 두 가지 질문이다. 쪼개지는가, 검증이 싼가.

Share

채용 이야기에서 흔히 나오는 말이 있다.

A급 인재 천 명을 모아도 S급 인재 한 명만 풀 수 있는 문제는 못 푼다.

과장처럼 들리지만 현장에서 일해본 사람은 안다. 어떤 문제는 인원을 늘리면 풀리고, 어떤 문제는 인원을 아무리 늘려도 안 풀린다. 후자는 한 사람의 머리 안에서 통째로 굴러가야 하는 문제다. 쪼개는 순간 본질이 사라지는 문제다.

AI 모델에도 같은 질문을 던질 수 있다.

약한 모델을 천 개 돌리면 강한 모델이 될까.

여러 에이전트를 묶어 돌리는 orchestration(오케스트레이션)이 유행하면서 이 질문은 한가한 비유가 아니라 돈이 걸린 의사결정이 됐다. 싼 모델을 물량으로 돌릴 것인가, 비싼 모델을 한 번 돌릴 것인가. 답은 "문제에 따라 다르다"인데, 그 "따라"의 기준이 생각보다 선명하다.

분포 밖의 답은 천 번을 뽑아도 안 나온다

모델이 내놓는 답은 어디서 오는가. 모델이 학습한 분포에서 나온다. 같은 질문을 천 번 던지는 건 그 분포에서 천 번 뽑는 일이다.

여기서 산수가 단순해진다.

정답이 분포 안에 있는데 드물게 나온다면, 뽑는 횟수를 늘릴수록 건질 확률이 올라간다. 백 번에 한 번 나오는 답이라면 천 번 뽑으면 거의 확실히 잡는다.

하지만 정답이 분포 안에 아예 없다면, 0에 천을 곱해도 0이다.

그 모델의 어떤 출력 경로에도 존재하지 않는 통찰은 샘플을 늘려도 등장하지 않는다. 물량은 "드물게 나오는 답"을 건지는 도구지, "나올 수 없는 답"을 만들어내는 도구가 아니다.

그리고 AI 쪽 사정은 인재 비유보다 한 가지 더 나쁘다.

A급 인재 천 명은 그래도 천 명이 서로 다른 사람이다. 다른 경험, 다른 직관, 다른 맹점을 가졌다. 그런데 같은 모델 천 개는 같은 가중치의 복사본이다. 한 모델이 못 보는 것은 천 개가 똑같이 못 본다. 다양성이 없는 물량은 물량이 아니라 같은 시도의 반복이다.

그런데 물량이 실제로 이긴 기록이 있다

여기서 끝나면 깔끔한데, 현실은 한 겹 더 있다.

Large Language Monkeys 연구는 같은 모델로 같은 문제를 반복해서 풀게 했을 때 무슨 일이 생기는지 측정했다. 실제 GitHub 이슈를 고치는 SWE-bench Lite에서, 한 번 시도하면 15.9%를 풀던 모델이 250번 시도하자 56%를 풀었다. 샘플 수를 늘릴수록 풀리는 문제의 비율이 꾸준히, 예측 가능한 곡선으로 올라갔다. 에이전트 수 자체를 늘리면 성능이 오른다는 연구도 비슷한 시기에 나왔다.

물량이 통한 것이다. 그러면 앞의 논리가 틀렸나.

아니다. 이 실험들이 통한 영역을 보면 된다. 코딩과 수학이다. 두 영역의 공통점은 답이 맞는지 기계가 싸게 확인할 수 있다는 것이다. 테스트가 통과하는지, 증명이 검증기를 통과하는지. 250개의 답 중에 정답이 하나라도 섞여 있으면, 검증기가 그걸 골라낸다.

경계를 가르는 두 가지 질문

그래서 물량과 등급의 경계는 두 가지 질문으로 갈린다.

첫째, 문제가 쪼개지는가. A급이 풀 수 있는 부분문제들로 분해되는 문제라면 물량이 덤빌 수 있다. 쪼개지지 않는 문제, 전체를 한 머리에 넣고 굴려야 하는 문제는 물량이 손댈 자리가 없다.

둘째, 검증이 생성보다 싼가. 나온 답이 맞는지 확인하는 비용이 답을 만드는 비용보다 훨씬 싸다면, 드문 정답을 물량으로 건질 수 있다. 검증이 비싸거나 불가능하다면, 천 개의 답은 천 개의 후보일 뿐이고 그중 무엇이 맞는지 가려줄 S급이 다시 필요해진다.

두 질문에 모두 "그렇다"면 물량이 이긴다. 하나라도 "아니다"면 모델 등급이 천장이다.

이렇게 정리하면 처음의 비유가 한 단계 정련된다.

물량은 탐색을 산다. 등급은 분포를 바꾼다.

천 번의 시도는 이미 가능한 답들 사이를 더 넓게 뒤져준다. 더 강한 모델은 가능한 답의 집합 자체를 키운다. 전자는 후자를 대체하지 못한다. 방향이 다른 투자다.

실무에서는 이렇게 갈린다

이 기준은 바로 써먹을 수 있다.

테스트가 있는 코드 수정, 채점 기준이 명확한 변환 작업, 정답이 존재하는 조사 업무. 이런 일은 싼 모델 여러 개에 검증을 붙이는 쪽이 이긴다. 실제로 에이전트를 여러 개 묶어 돌리는 구조가 값을 하는 곳이 정확히 여기다.

반대로 제품의 방향을 정하는 판단, 쪼개지지 않는 설계 결정, 맞는지 확인할 방법이 없는 한 방의 통찰. 이런 일은 오케스트레이션을 아무리 화려하게 짜도 베이스 모델의 등급이 결과의 상한이다. 여기서 물량에 쓰는 돈은 같은 맹점을 천 번 확인하는 비용이다.

그리고 이 기준은 사람 조직에도 그대로 돌아온다. 늦은 프로젝트에 사람을 더 넣으면 더 늦어진다는 브룩스의 법칙이 50년 전에 이미 같은 말을 했다. 인원을 늘려서 풀리는 일은 처음부터 쪼개지는 일이었다. 안 풀리는 일은 쪼개지지 않는 일이었다.

문제를 만났을 때 물어야 할 것은 "몇 명을 붙일까"나 "몇 번을 돌릴까"가 아니다.

이 문제는 쪼개지는가. 답을 싸게 검증할 수 있는가.

그 두 답이 물량을 살지 등급을 살지 정해준다.

참고