양자화, 결정론, Thinking 토큰: 오픈소스 LLM 프로덕션 운용기

저는 Qwen 3.5와 3.6 (35B MoE, 활성 파라미터 3B)을 3개 노드에서 프로덕션으로 운용하고 있습니다. DGX Spark 2대(FP8, vLLM)와 RTX 5090 1대(Q4, llama.cpp) 구성입니다. 100개 이상의 벤치마크 시나리오와 수천 회의 추론 호출을 거치면서, 디버깅 시간의 대부분을 차지한 문제는 딱 세 가지였습니다. 양자화 손실은 균일하지 않습니다 — MoE 모델의 Q4는 CJK 태스크에서 16%를 잃습니다 vLLM은 비결정적입니다 — 동일한 프롬프트에서 다른 출력이 나옵니다 Thinking 토큰은 이득 없는 태스크에서 예산의 60~90%를 먹습니다 이 세 가지 모두 표준 벤치마크에서는 드러나지 않습니다. 그런데 프로덕션에서는 전부 문제를 일으킵니다. ...

2026년 4월 25일 · 6 분 · ArkNill

tok/s가 알려주지 않는 것: 실제로 체감되는 LLM 속도 측정법

tok/s 숫자만 보고 GPU를 고르면 실패합니다. 저는 Qwen 3.6 35B를 3대의 머신에서 운영하고 있습니다. RTX 5090은 204 tok/s를 뽑습니다. DGX Spark 2대는 각각 65 tok/s입니다. 벤치마크 리더보드 기준으로 5090이 3배 빠릅니다. 그런데 thinking을 켜고 멀티스텝 코딩을 시키면, DGX 조합이 더 먼저 끝납니다. 반면 단순 질문에는 5090이 2초 만에 답하고, DGX는 8~12초 걸립니다. tok/s 하나로는 실제 사용 경험을 전혀 예측할 수 없었습니다. 3노드 벤치마크를 직접 만들면서 배운 것을 정리합니다. 역설: 3배 빠른 GPU가 더 느린 순간 제 3노드 구성입니다. ...

2026년 4월 24일 · 4 분 · ArkNill