Claude Code vs 로컬 35B 모델: 크로스체크 하네스를 만들며 배운 것들

월 20만원 내고 쓰는 Claude Code, 로컬 35B 모델이 대체할 수 있을까? 저는 Claude Code (Opus 4.6)를 주력 코딩 도구로 사용합니다. 동시에 DGX Spark 2대와 RTX 5090에서 Qwen 3.5/3.6 35B를 로컬로 돌립니다. 매달 $200(약 27만원)을 내면서 자연스럽게 궁금해졌습니다. 이 돈값을 하는 건가? 로컬 모델로 충분하지 않을까? 답을 찾기 위해 10일간 벤치마크 하네스를 3개 만들었습니다. 결론부터 말하면 — 모델보다 하네스가 더 많이 틀렸습니다. 평가 도구를 만드는 과정에서, 모델 성능보다 평가 방법론에 대해 훨씬 더 많이 배웠습니다. ...

2026년 4월 27일 · 6 분 · ArkNill

tok/s가 알려주지 않는 것: 실제로 체감되는 LLM 속도 측정법

tok/s 숫자만 보고 GPU를 고르면 실패합니다. 저는 Qwen 3.6 35B를 3대의 머신에서 운영하고 있습니다. RTX 5090은 204 tok/s를 뽑습니다. DGX Spark 2대는 각각 65 tok/s입니다. 벤치마크 리더보드 기준으로 5090이 3배 빠릅니다. 그런데 thinking을 켜고 멀티스텝 코딩을 시키면, DGX 조합이 더 먼저 끝납니다. 반면 단순 질문에는 5090이 2초 만에 답하고, DGX는 8~12초 걸립니다. tok/s 하나로는 실제 사용 경험을 전혀 예측할 수 없었습니다. 3노드 벤치마크를 직접 만들면서 배운 것을 정리합니다. 역설: 3배 빠른 GPU가 더 느린 순간 제 3노드 구성입니다. ...

2026년 4월 24일 · 4 분 · ArkNill