1M 컨텍스트가 바꾼 것, 바꾸지 않은 것
백만 토큰 컨텍스트 창이 실무에서 실제로 어떤 변화를 가져왔는지, 그리고 여전히 변하지 않은 것은 무엇인지 돌아봤다.
컨텍스트 창이 1M 토큰에 이르렀다는 소식이 처음 나왔을 때, 솔직히 우리 팀도 “이제 거의 모든 코드베이스를 한 번에 넣을 수 있겠다”며 들떴다. 몇 달이 지난 지금, 실제로 무엇이 달라졌고 무엇은 그대로인지 차분하게 정리해볼 시점이다.
확실히 달라진 것
가장 눈에 띄는 변화는 ‘문서 전체를 넘길 수 있다’는 점이다. 이전에는 긴 사양서나 레거시 코드를 분석할 때 청크를 나눠서 여러 번 대화해야 했다. 이제는 파일 전체를 한 번에 넣고 “이 코드의 전반적인 구조를 설명해줘”나 “이 기능과 관련된 모든 부분을 찾아줘”라고 하면 된다.
또 하나는 긴 대화 이력을 유지할 수 있다는 점이다. 짧은 컨텍스트 시대에는 대화가 길어지면 초반에 나눴던 결정 사항을 다시 설명해야 하는 일이 잦았다. 이제 그 마찰이 줄었다.
변하지 않은 것
하지만 컨텍스트가 길다고 해서 모델이 더 ‘현명’해지지는 않는다. 1M 토큰을 채워 넣어도 근거 없는 자신감으로 잘못된 답을 내놓는 경향은 달라지지 않았다. 검증의 책임은 여전히 사람에게 있다.
비용과 지연도 여전히 현실적인 제약이다. 긴 컨텍스트로 호출할수록 응답이 느려지고 비용이 늘어난다. 실제로 1M 전체를 채워서 쓰는 경우는 드물고, 필요한 부분만 잘라서 넣는 습관은 그대로 유지하고 있다.
“도구의 한계가 늘어났다고 해서 사용자의 판단력이 대체되지는 않는다.”
팀 안에서 이 문장이 자주 언급됐다. 컨텍스트가 길어지면 더 많은 것을 모델에 맡기고 싶은 유혹이 생기는데, 실제로는 맡길 수 있는 ‘판단의 종류’가 늘어난 것이지 판단 자체를 위임할 수 있는 것은 아니다.
결론
1M 컨텍스트는 분명 유용한 발전이다. 청크 분할, 요약 중간 단계 같은 번거로운 작업이 줄었다. 하지만 우리가 LLM 을 다루는 방식의 핵심 — 결과를 의심하고, 검증하고, 사람이 최종 판단한다 — 은 달라지지 않았다. 도구가 커졌을 뿐, 기본 원칙은 그대로다.
— by slecs