Llm | ArkNill

Claude Code vs 로컬 35B 모델: 크로스체크 하네스를 만들며 배운 것들

월 20만원 내고 쓰는 Claude Code, 로컬 35B 모델이 대체할 수 있을까? 저는 Claude Code (Opus 4.6)를 주력 코딩 도구로 사용합니다. 동시에 DGX Spark 2대와 RTX 5090에서 Qwen 3.5/3.6 35B를 로컬로 돌립니다. 매달 $200(약 27만원)을 내면서 자연스럽게 궁금해졌습니다. 이 돈값을 하는 건가? 로컬 모델로 충분하지 않을까? 답을 찾기 위해 10일간 벤치마크 하네스를 3개 만들었습니다. 결론부터 말하면 — 모델보다 하네스가 더 많이 틀렸습니다. 평가 도구를 만드는 과정에서, 모델 성능보다 평가 방법론에 대해 훨씬 더 많이 배웠습니다. ...

3노드 홈 LLM 랩을 만들었습니다. 실제로 필요한 것들.

집에서 3노드 LLM 추론 클러스터를 운영하고 있습니다. NVIDIA DGX Spark 2대(각 128GB 통합 메모리)와 RTX 5090 데스크탑(32GB VRAM) 1대. 세 노드 모두 Qwen 3.5/3.6 35B MoE 모델을 24/7 로컬 네트워크에서 서빙합니다. 주말 실험이 아닙니다. 매일 쓰는 개발 인프라입니다. 코드 리뷰, 리서치 쿼리, 벤치마크 — 전부 이 노드들 위에서 돌아갑니다. 왜 3대가 필요한가 “128GB면 모델 하나 올리기 충분하지 않나요?” 맞습니다. 1대로 모델은 돌아갑니다. 그런데 **역할 분리(role specialization)**를 하면 클러스터가 단일 노드의 합보다 강해집니다. ...

양자화, 결정론, Thinking 토큰: 오픈소스 LLM 프로덕션 운용기

저는 Qwen 3.5와 3.6 (35B MoE, 활성 파라미터 3B)을 3개 노드에서 프로덕션으로 운용하고 있습니다. DGX Spark 2대(FP8, vLLM)와 RTX 5090 1대(Q4, llama.cpp) 구성입니다. 100개 이상의 벤치마크 시나리오와 수천 회의 추론 호출을 거치면서, 디버깅 시간의 대부분을 차지한 문제는 딱 세 가지였습니다. 양자화 손실은 균일하지 않습니다 — MoE 모델의 Q4는 CJK 태스크에서 16%를 잃습니다 vLLM은 비결정적입니다 — 동일한 프롬프트에서 다른 출력이 나옵니다 Thinking 토큰은 이득 없는 태스크에서 예산의 60~90%를 먹습니다 이 세 가지 모두 표준 벤치마크에서는 드러나지 않습니다. 그런데 프로덕션에서는 전부 문제를 일으킵니다. ...

tok/s가 알려주지 않는 것: 실제로 체감되는 LLM 속도 측정법

tok/s 숫자만 보고 GPU를 고르면 실패합니다. 저는 Qwen 3.6 35B를 3대의 머신에서 운영하고 있습니다. RTX 5090은 204 tok/s를 뽑습니다. DGX Spark 2대는 각각 65 tok/s입니다. 벤치마크 리더보드 기준으로 5090이 3배 빠릅니다. 그런데 thinking을 켜고 멀티스텝 코딩을 시키면, DGX 조합이 더 먼저 끝납니다. 반면 단순 질문에는 5090이 2초 만에 답하고, DGX는 8~12초 걸립니다. tok/s 하나로는 실제 사용 경험을 전혀 예측할 수 없었습니다. 3노드 벤치마크를 직접 만들면서 배운 것을 정리합니다. 역설: 3배 빠른 GPU가 더 느린 순간 제 3노드 구성입니다. ...