Claude 4 시리즈 — 6개월 후의 재평가

처음 기대는 과장됐다

Claude 4 시리즈가 나왔을 때 기대가 컸다. 긴 컨텍스트, 향상된 코딩 능력, 에이전트 루프 안에서의 안정성. 실제로 써보니 기대의 절반은 맞고 절반은 틀렸다.

어느 쪽이 맞았고 어느 쪽이 틀렸는지, 6개월 실무 사용 경험을 바탕으로 정리한다.

기대대로였던 것들

코드 생성 품질은 실제로 높아졌다. 특히 반복적인 보일러플레이트 코드, 타입 정의, 간단한 데이터 변환 로직에서는 거의 그대로 쓸 수 있는 수준으로 나온다. 예전에는 30퍼센트 정도 손봐야 했다면, 지금은 10퍼센트 이내로 줄었다.

긴 컨텍스트도 실제로 유용하다. 대형 파일 여러 개를 한 번에 보내고 일관성 있는 수정을 요청할 수 있다. 이전 모델들에서는 컨텍스트 초과가 잦았는데 그 문제가 실용적 수준에서 사라졌다.

기대와 달랐던 것들

자율 에이전트 루프에서의 신뢰성은 아직 조건부다. 단순하고 명확한 작업에서는 잘 돌아가지만, 여러 단계가 얽히거나 외부 상태에 의존하는 작업에서는 여전히 사람이 개입해야 할 지점이 생긴다. “이제 AI가 알아서 다 해준다”는 건 현재 기준으로 특정 작업 유형에만 해당한다.

추론 품질의 일관성도 불안정하다. 같은 질문을 다르게 표현하면 결과가 달라진다. 이건 사용자의 프롬프트 품질 문제이기도 하지만, 모델 자체의 변동성이기도 하다. 중요한 결정에 AI 판단을 바로 사용하기보다 검증 단계를 두는 워크플로우가 여전히 필요하다.

우리 팀의 현재 활용 방식

코드 작성 보조, 문서 초안 작성, 반복 작업 자동화 파이프라인에서 주로 쓴다. 설계 결정이나 클라이언트 커뮤니케이션에는 쓰지 않는다. 그 경계를 지키면서 생산성 향상 효과가 실제로 있었다.

도구를 쓰되 도구에 판단을 맡기지 않는다는 원칙이 6개월 동안 흔들리지 않았다.

앞으로 어떻게 쓸 것인가

모델이 계속 발전할 것은 확실하다. 다만 그 발전을 따라가면서 우리 방식도 계속 조정해야 한다. 6개월 전의 활용법이 지금도 최선은 아니다.

3개월에 한 번씩은 현재 워크플로우를 점검하고, 새 기능이 실무에서 실제로 유용한지 직접 확인한다. 블로그에 쓰는 것도 그 점검의 일부다.

— by slecs