Inference

저는 Qwen 3.5와 3.6 (35B MoE, 활성 파라미터 3B)을 3개 노드에서 프로덕션으로 운용하고 있습니다. DGX Spark 2대(FP8, vLLM)와 RTX 5090 1대(Q4, llama.cpp) 구성입니다. 100개 이상의 벤치마크 시나리오와 수천 회의 추론 호출을 거치면서, 디버깅 시간의 대부분을 차지한 문제는 딱 세 가지였습니다. 양자화 손실은 균일하지 않습니다 — MoE 모델의 Q4는 CJK 태스크에서 16%를 잃습니다 vLLM은 비결정적입니다 — 동일한 프롬프트에서 다른 출력이 나옵니다 Thinking 토큰은 이득 없는 태스크에서 예산의 60~90%를 먹습니다 이 세 가지 모두 표준 벤치마크에서는 드러나지 않습니다. 그런데 프로덕션에서는 전부 문제를 일으킵니다. ...

Inference

양자화, 결정론, Thinking 토큰: 오픈소스 LLM 프로덕션 운용기

tok/s가 알려주지 않는 것: 실제로 체감되는 LLM 속도 측정법