Claude 4 시리즈를 도입한 4주 후기

팀에 Claude 4 시리즈를 본격적으로 도입한 지 딱 한 달이 지났다. 처음에는 “일단 써보자”는 가벼운 마음으로 시작했는데, 4주가 지나고 나니 생각보다 손에 익은 부분과 여전히 어색한 부분이 분명하게 나뉘었다. 이 글은 그 경험을 정리한 것이다.

잘 맞는다고 느낀 순간들

코드 리뷰 보조로 쓸 때 효과가 컸다. 이전에는 PR을 올리면 서로 돌아가며 코멘트를 달았는데, 이제는 초안 리뷰를 모델에 먼저 돌리고 사람이 최종 판단을 내리는 식으로 흐름이 바뀌었다. 놀라웠던 건 단순 문법 오류나 누락된 예외 처리뿐 아니라, 설계 의도에 어긋나 보이는 부분을 자연어로 짚어준다는 것이었다.

문서 작성에서도 차이를 느꼈다. 기술 스펙 문서를 만들 때 대화 형식으로 구조를 잡으면 초안이 꽤 쓸 만하게 나온다. 물론 세부 내용은 우리가 직접 채워야 하지만, 빈 페이지 앞에서 멈추는 시간이 줄어들었다.

예상과 달랐던 것

처음에는 “이제 디버깅도 맡길 수 있겠다”고 기대했다. 실제로는 절반만 맞았다. 에러 메시지와 스택 트레이스를 보여주면 원인 후보를 잘 나열해주는데, 그 중 어느 것이 실제 우리 시스템의 문제인지 좁히는 건 여전히 사람의 몫이었다. 컨텍스트를 얼마나 잘 넘겨주느냐에 따라 결과가 크게 갈렸다.

또 한 가지는 ‘자신감 과잉’이다. 모델이 틀린 답을 줄 때 머뭇거리지 않고 확신에 찬 어조로 말한다. 우리는 결과를 일단 의심하고 검증하는 습관을 팀 안에서 의식적으로 만들어야 했다. 도구를 믿되 맹신하지 않는 문화를 만드는 데 생각보다 시간이 걸렸다.

한 달 뒤의 결론

모델 자체보다 ‘어떻게 쓰느냐’가 훨씬 중요하다는 걸 체감했다. 좋은 프롬프트, 적절한 컨텍스트, 결과를 검증하는 습관 — 이 세 가지가 갖춰지면 생산성이 눈에 띄게 올라간다. 반대로 이 중 하나라도 허술하면 노이즈가 많아진다.

다음 달에는 에이전트 워크플로우를 실제 업무 파이프라인에 연결해볼 계획이다. 4주 후에 또 다른 후기를 쓸 수 있기를 바란다.

— by slecs