Observability — AI 시스템의 관찰 가능성

intermediate5 min read
선행 개념

Summary

Observability(관찰 가능성)는 AI 시스템의 내부 상태를 외부에서 파악할 수 있는 능력이다. 로그, 메트릭, 트레이스를 통해 시스템이 왜 그렇게 동작하는지를 이해하고 문제를 진단한다.

Why It Matters

LLM 시스템은 비결정적(non-deterministic)이다. 같은 입력에도 다른 출력이 나올 수 있고, 환각(hallucination)이 발생할 수 있다. 기존 소프트웨어의 모니터링만으로는 "왜 잘못된 답을 했는가"를 진단할 수 없다. AI 특화 Observability가 필수인 이유다.

Core Diagram

[사용자 요청]
     ↓
[Retrieval] ──→ 검색 품질 메트릭 (Recall, Relevance)
     ↓
[LLM 호출] ──→ 토큰 사용량, 지연 시간, 모델 버전
     ↓
[응답 생성] ──→ 응답 품질 평가 (Faithfulness, Coherence)
     ↓
[사용자 피드백] ──→ 만족도, 수정 요청, 재질문 비율
     ↓
[대시보드] ← 전체 트레이스 시각화

Concept Explanation

Observability의 3가지 기둥

기둥설명AI 시스템 적용
Logs이벤트 기록프롬프트, 응답, 검색 결과 전문
Metrics수치 측정지연 시간, 토큰 수, 비용, 품질 점수
Traces요청 흐름 추적검색→생성→응답의 전체 파이프라인

AI 특화 메트릭

검색 품질:

  • Context Relevance: 검색된 문서가 질문과 관련 있는가
  • Context Recall: 필요한 정보가 모두 검색되었는가
  • Chunk Utilization: 검색된 청크 중 실제 사용된 비율

생성 품질:

  • Faithfulness: 응답이 검색 결과에 근거하는가 (환각 감지)
  • Answer Relevance: 응답이 질문에 적절한가
  • Coherence: 응답이 논리적으로 일관적인가

운영 메트릭:

  • Time to First Token (TTFT): 첫 토큰 생성까지 시간
  • Tokens Per Second (TPS): 초당 생성 토큰 수
  • Error Rate: 오류 발생률
  • Token Usage: 입출력 토큰 사용량

트레이싱 패턴

LLM 파이프라인의 각 단계를 Span으로 기록:

Trace: user-query-12345
├── Span: embedding (12ms)
├── Span: vector-search (45ms)
│   └── metadata: {top_k: 5, threshold: 0.7}
├── Span: reranking (23ms)
├── Span: prompt-construction (2ms)
│   └── metadata: {template: "qa-v3", tokens: 1234}
├── Span: llm-generation (890ms)
│   └── metadata: {model: "gpt-4", tokens_in: 1234, tokens_out: 256}
└── Span: response-evaluation (15ms)
    └── metadata: {faithfulness: 0.92, relevance: 0.88}

System Perspective

LLM Observability 스택:

  1. 수집: OpenTelemetry SDK로 로그/메트릭/트레이스 수집
  2. 저장: 시계열 DB(Prometheus), 로그 저장소(Elasticsearch), 트레이스 저장소(Jaeger)
  3. 분석: LLM 평가 프레임워크(RAGAS, DeepEval)로 품질 자동 평가
  4. 시각화: 대시보드(Grafana, Langfuse, Phoenix)로 실시간 모니터링
  5. 알림: 품질 하락, 비용 급증, 지연 시간 초과 시 알림

LLM Observability 전문 도구:

  • Langfuse: 오픈소스 LLM 트레이싱 + 평가
  • Arize Phoenix: LLM 성능 분석 + 디버깅
  • Langsmith: LangChain 생태계 Observability
  • Helicone: LLM API 프록시 기반 모니터링

Practical Insight

  • 프로덕션 전에 Observability를 설계하라 — 나중에 추가하면 비용이 10배
  • 프롬프트와 응답 전문을 저장하되, PII(개인식별정보)는 마스킹 처리
  • 자동 평가(LLM-as-Judge)와 사용자 피드백을 병행하라
  • 대시보드의 핵심 지표: TTFT, 일일 요청 수, 평균 품질 점수, 비용/요청
  • 품질 하락을 감지하는 알림은 즉시 설정하라 — 환각 증가는 매출 손실로 이어진다

Common Misunderstandings

  • Observability는 모니터링과 다르다 — 모니터링은 "무엇이 문제인가", Observability는 "왜 문제인가"
  • 로그만 쌓는다고 Observability가 아니다 — 구조화된 메트릭과 트레이스가 필수
  • LLM 품질 평가는 완벽하지 않다 — 자동 평가는 참고 지표이며 인간 평가를 대체하지 못한다
  • Observability 구축에도 비용이 든다 — 로그/트레이스 저장과 LLM-as-Judge 호출 비용을 고려하라

Connected Topics

  • 이전: RAG Pipeline
  • 다음: Cost Monitoring
  • 관련: Case Study — 운영 가능한 RAG 시스템

다음 학습 주제