Testing

월 20만원 내고 쓰는 Claude Code, 로컬 35B 모델이 대체할 수 있을까? 저는 Claude Code (Opus 4.6)를 주력 코딩 도구로 사용합니다. 동시에 DGX Spark 2대와 RTX 5090에서 Qwen 3.5/3.6 35B를 로컬로 돌립니다. 매달 $200(약 27만원)을 내면서 자연스럽게 궁금해졌습니다. 이 돈값을 하는 건가? 로컬 모델로 충분하지 않을까? 답을 찾기 위해 10일간 벤치마크 하네스를 3개 만들었습니다. 결론부터 말하면 — 모델보다 하네스가 더 많이 틀렸습니다. 평가 도구를 만드는 과정에서, 모델 성능보다 평가 방법론에 대해 훨씬 더 많이 배웠습니다. ...