<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Vllm on ArkNill</title><link>https://arknill.github.io/ko/tags/vllm/</link><description>Recent content in Vllm on ArkNill</description><generator>Hugo</generator><language>ko</language><lastBuildDate>Sat, 25 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://arknill.github.io/ko/tags/vllm/index.xml" rel="self" type="application/rss+xml"/><item><title>양자화, 결정론, Thinking 토큰: 오픈소스 LLM 프로덕션 운용기</title><link>https://arknill.github.io/ko/blog/quantization-determinism-thinking-production/</link><pubDate>Sat, 25 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/quantization-determinism-thinking-production/</guid><description>FP8이 프로덕션 마지노선입니다. Q4 MoE는 CJK에서 16%를 잃습니다. vLLM은 MTP 하에서 비결정적입니다. Thinking 토큰은 잘못된 태스크에서 예산의 90%를 소모합니다. Qwen 3.5/3.6 35B를 3노드에서 운용하며 얻은 실전 교훈입니다.</description></item></channel></rss>