Claude-Code

Claude Code vs 로컬 35B 모델: 크로스체크 하네스를 만들며 배운 것들

월 20만원 내고 쓰는 Claude Code, 로컬 35B 모델이 대체할 수 있을까? 저는 Claude Code (Opus 4.6)를 주력 코딩 도구로 사용합니다. 동시에 DGX Spark 2대와 RTX 5090에서 Qwen 3.5/3.6 35B를 로컬로 돌립니다. 매달 $200(약 27만원)을 내면서 자연스럽게 궁금해졌습니다. 이 돈값을 하는 건가? 로컬 모델로 충분하지 않을까? 답을 찾기 위해 10일간 벤치마크 하네스를 3개 만들었습니다. 결론부터 말하면 — 모델보다 하네스가 더 많이 틀렸습니다. 평가 도구를 만드는 과정에서, 모델 성능보다 평가 방법론에 대해 훨씬 더 많이 배웠습니다. ...

Anthropic 포스트모템, 진실의 절반만 말했습니다

배경: Postmortem이란 무엇인가 소프트웨어 업계에서 postmortem(포스트모템)은 장애 발생 후 작성하는 공식 분석 보고서입니다. “무엇이 잘못되었고, 왜 발생했으며, 어떻게 재발을 방지할 것인가"를 투명하게 기술하는 것이 핵심입니다. Google, AWS, Cloudflare 등 대형 서비스가 장애 때마다 발행하며, 업계에서는 기업의 엔지니어링 성숙도를 보여주는 지표로 받아들입니다. 4월 23일, Anthropic은 포스트모템을 발행했습니다. 3월 4일부터 4월 20일까지 Claude Code 성능이 저하된 원인으로 세 가지 제품 레이어 버그를 인정한 문서입니다. 결론부터 말합니다. 인정한 세 가지 버그는 사실입니다. 수정도 사실입니다. 하지만 이 포스트모템은 전체 그림의 절반만 보여줍니다. ...

Opus 4.7 포스트모템: CHANGELOG가 말하지 않은 것

배경 소프트웨어 회사가 장애를 공식 인정하는 문서를 postmortem(포스트모템)이라고 합니다. “무엇이 잘못되었고, 왜 발생했으며, 어떻게 재발을 막을 것인가"를 공개하는 투명성 관행입니다. 그리고 CHANGELOG는 버전별 변경사항을 사용자에게 알리는 공식 기록입니다. 사용자가 “이번 업데이트에서 무엇이 바뀌었는지” 확인할 수 있는 유일한 통로이기도 합니다. 4월 23일, Anthropic이 포스트모템을 발행했습니다. 3월 4일부터 4월 20일까지, Claude Code에서 제품 계층(harness/product layer) 버그 3건이 성능을 저하시켰다는 내용입니다. 모델 가중치 변경은 없었습니다 — 세 건 모두 모델을 감싸는 제품 레이어의 문제였습니다. ...

Claude Code API 42,363건을 전수 추적해봤습니다 — 쿼터는 대체 어디로 가는 걸까요

70분 만에 쿼터 100% — 시작은 여기였습니다 Claude Code Max 20은 월 $200 구독 요금제로, Anthropic이 “최고 사용량 사용자"를 위해 만든 플랜입니다. 5시간 윈도우 단위로 쿼터가 리셋되는 구조인데, 4월 1일 평범한 코딩 중에 **70분 만에 100%**를 찍었습니다. 원인은 두 가지 캐시 버그였고, Anthropic이 v2.1.90~91에서 수정한 뒤 실제로 개선되었습니다. 하지만 “수정 이후에도 쿼터가 체감보다 빨리 소진된다"는 느낌이 남았습니다. 그래서 직접 측정하기로 했습니다. 이슈를 올리고, 커뮤니티 스레드를 파헤치고, 모든 API 호출을 기록하는 투명 프록시를 만들었습니다. ...