Homelab

집에서 3노드 LLM 추론 클러스터를 운영하고 있습니다. NVIDIA DGX Spark 2대(각 128GB 통합 메모리)와 RTX 5090 데스크탑(32GB VRAM) 1대. 세 노드 모두 Qwen 3.5/3.6 35B MoE 모델을 24/7 로컬 네트워크에서 서빙합니다. 주말 실험이 아닙니다. 매일 쓰는 개발 인프라입니다. 코드 리뷰, 리서치 쿼리, 벤치마크 — 전부 이 노드들 위에서 돌아갑니다. 왜 3대가 필요한가 “128GB면 모델 하나 올리기 충분하지 않나요?” 맞습니다. 1대로 모델은 돌아갑니다. 그런데 **역할 분리(role specialization)**를 하면 클러스터가 단일 노드의 합보다 강해집니다. ...