<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Blogs on ArkNill</title><link>https://arknill.github.io/ko/blog/</link><description>Recent content in Blogs on ArkNill</description><generator>Hugo</generator><language>ko</language><lastBuildDate>Mon, 27 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://arknill.github.io/ko/blog/index.xml" rel="self" type="application/rss+xml"/><item><title>Claude Code vs 로컬 35B 모델: 크로스체크 하네스를 만들며 배운 것들</title><link>https://arknill.github.io/ko/blog/testing-claude-code-against-local-35b/</link><pubDate>Mon, 27 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/testing-claude-code-against-local-35b/</guid><description>월 20만원짜리 Claude Code를 로컬 Qwen 35B가 대체할 수 있을까? 하네스 3개, 55개 태스크, 290개 테스트를 돌려봤습니다. 가장 놀라운 발견 — 하네스 버그가 모델 버그보다 많았습니다.</description></item><item><title>3노드 홈 LLM 랩을 만들었습니다. 실제로 필요한 것들.</title><link>https://arknill.github.io/ko/blog/3-node-home-llm-lab/</link><pubDate>Sun, 26 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/3-node-home-llm-lab/</guid><description>DGX Spark 2대(128GB)와 RTX 5090 데스크탑 — Qwen 3.5/3.6 35B를 프로덕션으로 운영합니다. 하드웨어 선택, 실제 비용, 운영 교훈, 그리고 왜 3대가 1대보다 나은지.</description></item><item><title>양자화, 결정론, Thinking 토큰: 오픈소스 LLM 프로덕션 운용기</title><link>https://arknill.github.io/ko/blog/quantization-determinism-thinking-production/</link><pubDate>Sat, 25 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/quantization-determinism-thinking-production/</guid><description>FP8이 프로덕션 마지노선입니다. Q4 MoE는 CJK에서 16%를 잃습니다. vLLM은 MTP 하에서 비결정적입니다. Thinking 토큰은 잘못된 태스크에서 예산의 90%를 소모합니다. Qwen 3.5/3.6 35B를 3노드에서 운용하며 얻은 실전 교훈입니다.</description></item><item><title>tok/s가 알려주지 않는 것: 실제로 체감되는 LLM 속도 측정법</title><link>https://arknill.github.io/ko/blog/what-tok-s-doesnt-tell-you/</link><pubDate>Fri, 24 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/what-tok-s-doesnt-tell-you/</guid><description>204 tok/s GPU가 65 tok/s GPU보다 느리게 느껴지는 작업이 있습니다. tok/s 하나로는 실사용 체감 속도를 예측할 수 없습니다. 실측에서 도출한 3가지 프레임워크(TTR, Effective tok/s, TCT)를 소개합니다.</description></item><item><title>Anthropic 포스트모템, 진실의 절반만 말했습니다</title><link>https://arknill.github.io/ko/blog/anthropic-postmortem-half-truth/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/anthropic-postmortem-half-truth/</guid><description>Anthropic이 인정한 3가지 버그는 사실입니다. 그런데 포스트모템이 의도적으로 빠뜨린 것들이 있습니다. 모델 회귀, CHANGELOG 공백, 그리고 비용 절감과 정확히 일치하는 &amp;#39;우연&amp;#39;. 42K API 호출 데이터와 36개 팩트체크로 나머지 절반을 복원합니다.</description></item><item><title>Opus 4.7 포스트모템: CHANGELOG가 말하지 않은 것</title><link>https://arknill.github.io/ko/blog/opus-47-postmortem-what-changelog-didnt-say/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/opus-47-postmortem-what-changelog-didnt-say/</guid><description>Anthropic이 48일간 Claude Code를 저하시킨 제품 계층 버그 3건을 인정했습니다. 포스트모템을 CHANGELOG와 대조하면 구조적 투명성 격차가 드러납니다 — 3건 중 2건은 문서화 자체가 없었습니다. 그리고 포스트모템 범위 밖에서 5건의 이슈가 여전히 진행 중입니다.</description></item><item><title>Claude Code API 42,363건을 전수 추적해봤습니다 — 쿼터는 대체 어디로 가는 걸까요</title><link>https://arknill.github.io/ko/blog/claude-code-thinking-token-blind-spot/</link><pubDate>Mon, 06 Apr 2026 00:00:00 +0000</pubDate><guid>https://arknill.github.io/ko/blog/claude-code-thinking-token-blind-spot/</guid><description>Claude Code Max 20 구독자가 19일간 투명 프록시로 전수 측정한 토큰 소비 구조, 11개 버그, Opus 4.7 영향, 그리고 Anthropic 4월 23일 포스트모템까지. 독립 연구자 4명의 데이터가 원래 가설을 교정했습니다.</description></item></channel></rss>