multimodal 모델로 운영 모니터링 캡처 자동 분석
대시보드 스크린샷을 매일 모델에 넘겨 이상 징후를 텍스트로 요약하는 파이프라인을 만들었다. 설계 원칙과 실제 한계를 공유한다.
운영 알림은 두 종류다. 숫자가 임계값을 넘으면 울리는 규칙 기반 알림, 그리고 “뭔가 이상한데 딱 집어 말하기 어려운” 직관. 전자는 잘 구축되어 있어도 후자를 잡아내지 못한다. 그래서 우리는 대시보드 캡처를 매일 multimodal 모델에 넘기는 파이프라인을 실험해보았다.
문제 정의
모니터링 대시보드를 매일 아침 눈으로 훑는 데 평균 10~15분이 걸렸다. 추세가 완만하게 바뀌는 케이스, 예를 들어 응답 지연이 사흘에 걸쳐 조금씩 늘어나는 상황은 단일 임계값 알림으로는 잡히지 않는다. 시각 정보를 언어로 바꾸는 모델이라면 이 공백을 채울 수 있지 않을까 하는 가설에서 출발했다.
파이프라인 구조
크론 (매일 06:00)
→ Playwright 로 대시보드 스크린샷 캡처
→ 이미지 base64 인코딩
→ multimodal 모델 API 호출 (이미지 + 프롬프트)
→ 응답 텍스트를 슬랙 채널로 전송
프롬프트는 간단하게 유지했다. “이 대시보드에서 지난 24시간 동안 주목할 만한 변화나 패턴이 있으면 설명해달라. 없으면 없다고 말해달라.” 모델이 억지로 이슈를 만들어내지 않도록 ‘없다’는 답을 명시적으로 허용한 것이 핵심이다.
실제로 동작한 것
- 특정 시간대에 요청 수가 평소 대비 30% 낮아지는 패턴을 이틀 연속 감지. 수동으로 확인해보니 배치 작업과 겹치는 구간이었고, 로드 분산 개선의 실마리가 됐다.
- 에러율 그래프의 색상 변화(노란색 → 주황색 전환)를 “임계값 근접 중”으로 해석하고 사전에 알려줬다.
실제로 동작하지 않은 것
모델은 이미지에서 정확한 수치를 읽어내는 데 불안정하다. “응답 시간이 약 240ms 수준으로 보인다”는 설명이 실제로는 180ms 였던 경우가 있었다. 숫자 정밀도가 중요한 알림은 여전히 규칙 기반으로 처리해야 한다.
또 대시보드 레이아웃이 바뀌면 모델의 해석 품질이 갑자기 떨어진다. 레이아웃 변경 직후에는 며칠치 샘플을 수동으로 검토하는 루틴이 필요하다.
앞으로 개선할 방향
지금은 전체 대시보드를 통째로 캡처한다. 앞으로는 패널 단위로 잘라서 각각 분석한 뒤 결과를 합산하는 방식을 시도할 예정이다. 관심 영역이 명확해질수록 프롬프트도 구체화할 수 있고, 모델의 응답 품질도 올라갈 것으로 기대한다.
multimodal 분석은 알림을 대체하는 것이 아니라 기존 모니터링의 사각지대를 보완하는 역할이다. 이 구분을 지키는 것이 과신을 막는 가장 중요한 원칙이다.
— by slecs