35만 원짜리 데이터센터 GPU를 게이밍 PC에 꽂았더니 270억 파라미터 모델이 돌아갔다

35만 원짜리 데이터센터 GPU를 게이밍 PC에 꽂았더니 270억 파라미터 모델이 돌아갔다 - 박재홍의 실리콘밸리


2017년에 출시된 NVIDIA Tesla V100. 원래 데이터센터 서버 랙 안에서만 살도록 설계된 이 GPU(Graphics Processing Unit, 그래픽 처리 장치)는 일반 PC 메인보드에 꽂을 수 있는 PCIe 슬롯도, 모니터 출력 단자도, 일반적인 전원 커넥터도 없다. 그런데 한 엔지니어가 이걸 이베이에서 약 20만 원에 사서, 7만 원짜리 어댑터로 자기 게이밍 PC에 꽂았다. 기존 RTX 4080의 16GB VRAM(Video RAM, GPU 전용 메모리)에 V100의 16GB를 더해 총 32GB. 이 구성으로 270억 파라미터 LLM(Large Language Model, 대규모 언어 모델)을 초당 32토큰 속도로 돌리고 있다. 같은 용량의 최신 RTX 5090 한 장이 300만 원 넘는 시장에서, 총 35만 원으로 비슷한 VRAM을 확보한 셈이다. <박재홍의 실리콘밸리>

핵심요약

  • NVIDIA Tesla V100 SXM2 16GB를 약 20만 원(이베이), SXM2-to-PCIe 어댑터를 약 7만 원에 구매해 기존 RTX 4080(16GB)과 함께 장착, 총 32GB VRAM을 약 35만 원에 확보했다. 동일 용량의 RTX 5090은 300만 원 이상이다.
  • V100은 2017년 GPU임에도 HBM2(High Bandwidth Memory, 고대역폭 메모리) 덕분에 메모리 대역폭이 900GB/s로, 2022년 출시된 RTX 4080(736GB/s)보다 22% 높다. LLM 추론에서 메모리 대역폭은 토큰 생성 속도를 결정하는 핵심 병목이다.
  • Qwen3.6-27B-MTP 모델을 Q5_K_M 양자화로 두 GPU에 분산 로드하여 초당 32토큰으로 추론하며, 128K 토큰 컨텍스트 윈도우와 이미지 입력까지 지원한다. 클라우드 API 없이 완전 로컬로 동작한다.
  • 데이터센터 GPU의 최대 난관은 소음이다. 서버용 팬이 82데시벨(쓰레기 분쇄기 수준)로 돌아가지만, 팬 핀아웃을 분석해 메인보드 팬 헤더에 연결하고 PWM 제어로 10%로 낮추면 풀로드에서도 50도 이하를 유지할 수 있다.
  • NixOS 환경에서 레거시 드라이버(550.x), 커널 6.6, CUDA 12.2를 조합해 서로 다른 아키텍처(Ada + Volta)의 두 GPU를 동시 구동했다. 설정 전체가 선언적이어서 재현 가능하다.
  • 중고 서버 GPU 시장은 "로컬 AI를 위한 VRAM 확보"라는 문제에 대해 가격 대비 성능이 극단적으로 높은 선택지를 제공하며, 클라우드 API 종량제 과금 모델의 경제성에 직접적인 질문을 던진다.

왜 데이터센터 GPU인가

로컬에서 LLM을 돌릴 때 가장 중요한 자원은 연산 성능이 아니라 VRAM 용량과 메모리 대역폭이다. 모델 전체가 GPU 메모리에 올라가야 빠르게 추론할 수 있고, 메모리에서 데이터를 읽어오는 속도(대역폭)가 곧 토큰 생성 속도를 결정한다. 문제는 소비자용 GPU에서 VRAM을 늘리려면 비용이 급격히 올라간다는 점이다. RTX 4080은 16GB, RTX 5090이 32GB인데 가격은 300만 원을 넘긴다.

글의 저자 Oscar Molnar는 다른 경로를 택했다. 데이터센터에서 퇴역한 NVIDIA Tesla V100 SXM2 16GB를 이베이에서 약 20만 원에 구매한 것이다. 이 GPU는 NVIDIA의 서버용 폼 팩터인 SXM2 규격으로, 일반 PC의 PCIe 슬롯에 직접 꽂을 수 없다. 하지만 누군가가 만든 SXM2-to-PCIe 어댑터(약 7만 원)를 사용하면 일반 메인보드에 장착할 수 있다.

2017년 GPU가 2022년 GPU를 이기는 지점

V100의 진짜 강점은 HBM2(High Bandwidth Memory 2세대) 메모리에 있다. 일반 소비자 GPU가 사용하는 GDDR6X 메모리와는 구조 자체가 다르다. HBM2는 메모리 칩을 수직으로 쌓아 올려 데이터 통로(버스)의 폭을 극단적으로 넓힌 기술이다. V100의 메모리 버스 폭은 4096비트, 대역폭은 900GB/s다.

비교하면 차이가 선명하다.

GPU 메모리 대역폭 가격대
Tesla V100 SXM2 (2017) 900 GB/s 약 20만 원 (중고)
RTX 4080 (2022) 736 GB/s 약 150만 원
Apple M4 Max (2024) 546 GB/s 약 400만 원+ (노트북)
Apple M5 Max (2025) 614 GB/s 약 450만 원+ (노트북)
AMD RX 7900 XTX 960 GB/s 약 100만 원
RTX 5090 (2025) 1,792 GB/s 약 300만 원+

2017년 서버 GPU가 2022년 소비자 GPU보다 메모리 대역폭이 22% 높고, 2025년 최신 맥북의 어떤 칩보다도 빠르다. LLM 추론에서 대역폭이 토큰 생성 속도의 병목이라는 점을 감안하면, 이 중고 GPU의 가성비는 비정상적으로 높다.

AMD RX 7900 XTX가 960GB/s로 대역폭 자체는 V100을 약간 앞서지만, 가격이 5배 이상이고 AMD의 GPU 컴퓨팅 소프트웨어 스택인 ROCm의 LLM 추론 지원이 NVIDIA CUDA(GPU 범용 컴퓨팅 플랫폼)에 비해 아직 불안정하다. V100은 CUDA 생태계의 성숙함을 그대로 활용할 수 있다.

서버 팬 82데시벨과의 전쟁

V100 SXM2는 원래 2U 서버 랙 안에서 산업용 냉각 시스템으로 식히도록 설계됐다. 어댑터에 달린 팬은 제어 없이 항상 100% 속도로 회전한다. 저자가 Apple Watch로 측정한 소음은 82데시벨. 쓰레기 분쇄기와 잔디 깎는 기계 사이 수준이다.

nvidia-smi(NVIDIA의 GPU 관리 도구)로도, Linux에서 스캔해도, Windows의 Afterburner로도 팬 속도를 제어할 수 없었다. 이 팬은 제어되도록 설계된 적이 없기 때문이다.

저자의 해결 방법은 하드웨어 수준의 역공학이었다. 먼저 팬 커넥터의 핀 배열(핀아웃)을 추정했다. 표준 PC 케이스 팬과 같은 구조일 것이라 가정하고, 점퍼 와이어 두 개를 VCC(전원)와 GND(접지) 핀에 꽂은 뒤 9V 건전지를 연결했더니 팬이 돌았다. 12V 정격보다 낮은 전압이라 훨씬 조용했다.

핀아웃이 표준과 같다는 것을 확인한 뒤, 점퍼 와이어로 팬의 타코미터(회전수 감지)와 PWM(Pulse Width Modulation, 펄스 폭 변조로 속도를 조절하는 방식) 핀을 메인보드의 여분 팬 헤더에 연결했다. 메인보드가 RPM을 읽고 PWM 제어가 작동했다. 10%로 설정하니 풀로드에서도 GPU 온도가 50도를 넘지 않았다. 82데시벨이 생활 가능한 수준으로 내려왔다.

팬 커넥터는 JST PH2.0(2.0mm 피치) 4핀이고 메인보드 팬 헤더는 표준 2.54mm 피치이므로, 2.54mm 수컷-to-PH2.0 암컷 점퍼 케이블 하나로 연결이 끝난다. 부품 비용은 약 3천 원이다.

소프트웨어 설정: NixOS가 빛나는 순간

서로 다른 세대의 GPU 두 장을 한 시스템에서 동시에 구동하는 것은 드라이버 호환성 문제를 수반한다. V100은 Volta 아키텍처이고 RTX 4080은 Ada 아키텍처다. NVIDIA는 드라이버 브랜치 560부터 Volta 지원을 중단했기 때문에, 두 아키텍처를 모두 지원하는 마지막 드라이버인 550.x 브랜치를 사용해야 한다.

이 드라이버는 CUDA 12.2까지만 지원하고, 커널도 6.6이어야 한다. 현재 nixpkgs(NixOS의 패키지 저장소)는 CUDA 12.6 이상만 제공하므로, CUDA 12.2는 과거 버전의 nixpkgs(24.05)에서 가져와야 한다.

NixOS(선언적 설정 파일로 시스템 전체를 정의하는 Linux 배포판)에서는 이 모든 제약이 설정 파일 몇 줄로 해결된다.

boot.kernelPackages = pkgs.linuxPackages_6_6;
hardware.nvidia.package = config.boot.kernelPackages.nvidiaPackages.legacy_535;
services.xserver.enable = true;
services.xserver.videoDrivers = [ "nvidia" ];

코드 복사

CUDA 12.2를 오래된 nixpkgs에서 오버레이로 가져오는 설정은 다음과 같다.

nixpkgs.overlays = [
  (final: prev: {
    cudaPackages_12_2 = nixpkgs-cuda.legacyPackages.${prev.system}.cudaPackages_12_2;
  })
];

코드 복사

한 가지 비직관적인 점이 있다. 이 시스템은 모니터도 연결하지 않는 순수 추론 서버인데, services.xserver.enable = true를 설정해야 한다. 이걸 켜지 않으면 NVIDIA 커널 모듈이 로드되지 않기 때문이다. 헤드리스(모니터 없는) 구성에서 X 서버를 활성화해야 한다는 것은 NixOS의 NVIDIA 모듈 의존성 구조에서 오는 제약이다.

저자는 OS 전체를 외장 USB-C NVMe 드라이브에서 부팅한다. 게임할 때는 드라이브를 뽑고 Windows로 부팅, LLM을 돌릴 때는 드라이브를 꽂고 NixOS로 부팅한다. 듀얼 부트 메뉴 없이 물리적으로 드라이브를 바꾸는 방식이다. 부트로더 충돌이나 파티션 관리가 필요 없다.

270억 파라미터 모델, 초당 32토큰

이 구성에서 돌리는 모델은 Qwen3.6-27B-MTP다. Q5_K_M 양자화(모델 가중치의 정밀도를 낮춰 크기를 줄이는 기법)로 약 19GB 크기이며, llama.cpp(C/C++로 작성된 오픈소스 LLM 추론 엔진)를 사용해 두 GPU에 분산 로드한다.

항목
모델 Qwen3.6-27B-MTP Q5_K_M (19GB)
컨텍스트 크기 128K 토큰
GPU 레이어 99 (전부 GPU 오프로드)
텐서 분할 -ts 1.0,1.0 (두 GPU 균등 분배)
추론 속도 약 32 tok/s
프롬프트 처리 약 133~160 tok/s

llama.cpp의 텐서 분할(tensor splitting) 기능은 모델의 레이어를 여러 GPU에 나눠 배치하고, PCIe 버스를 통해 순차적으로 처리한다. 단일 32GB GPU보다는 느리지만, 작동은 한다. 초당 32토큰은 대화형 사용에 충분한 속도다. 네트워크 지연을 감안하면 대부분의 클라우드 API보다 체감 속도가 빠를 수 있다.

모델명의 MTP는 Multi-Token Prediction(다중 토큰 예측)의 약자다. 일반적인 LLM 추론은 토큰을 하나씩 순차적으로 생성한다. MTP는 여러 토큰을 동시에 예측한 뒤, 맞은 것은 그대로 채택하고 틀린 것만 재생성한다. 정확도 손실 없이 생성 속도를 1.5~2배 높이는 기법으로, 특히 코드처럼 예측 가능한 출력에서 효과가 크다. 이 구성에서 MTP가 잘 작동하면 50~60 tok/s까지 올라갈 수 있다.

비전(이미지 입력) 기능도 지원한다. mmproj라는 약 928MB의 멀티모달 프로젝터 파일을 추가하면, 비전 인코더가 이미지를 LLM의 토큰 임베딩 공간(텍스트 토큰과 같은 수학적 좌표계)으로 변환한다. 약 1GB 추가로 이미지 분석 능력을 얻는 것이다.

--mmproj /mnt/nas/llamacpp/mmproj-F16.gguf --mmproj-offload

코드 복사

로컬 모델이 클라우드 모델과 경쟁하는 시대

저자가 강조하는 지점이 있다. 이 모델은 “로컬 모델치고 괜찮은” 수준이 아니라는 것이다. Qwen3.6-27B는 Artificial Analysis의 Agentic Index에서 Claude Sonnet 4.6과 동점이다. MMMU-Pro와 Terminal-Bench 2.0에서는 Sonnet 4.6을 이긴다. GPQA와 SWE-Bench Verified에서는 Sonnet 4.6이 앞서지만, 수천억 파라미터 규모의 독점 모델과 중고 하드웨어에서 돌아가는 270억 파라미터 모델의 격차가 이 정도라는 사실 자체가 주목할 만하다.

최상위 모델인 Opus 4.8은 물론 존재한다. 하지만 저자의 계산에 따르면, Opus를 20분 정도 집중적으로 사용하는 비용이 이 GPU와 어댑터 전체 구매 비용을 넘는다. 로컬에서 돌리면 토큰당 과금이 없고, 데이터가 네트워크 밖으로 나가지 않는다.

모델은 NAS(Network Attached Storage, 네트워크 연결 스토리지)에 NFS로 마운트해서 저장한다. llama.cpp 서비스가 NAS 마운트에 의존하도록 설정해두면, NAS가 준비된 후에만 서비스가 시작된다. 테라바이트 단위의 모델을 로컬 디스크 걱정 없이 보관할 수 있다.

알려진 한계

V100이 웜 리부트(OS만 재시작, 메인보드 전원은 유지) 후 간헐적으로 lspcinvidia-smi에서 사라지는 현상이 있다. ACPI(Advanced Configuration and Power Interface, 전원 관리 인터페이스)의 PCIe 열거 문제로 추정된다. 콜드 리부트(전원을 물리적으로 끄고 몇 초 후 다시 켜기)를 하면 항상 복구된다. V100이 인식되지 않으면 llama.cpp가 16GB 단일 GPU에 모델을 올릴 수 없어 서비스가 반복 실패한다. 치명적이지는 않지만 알아둘 필요가 있는 제약이다.

또한 V100은 bfloat16(Brain Floating Point 16, 구글이 딥러닝용으로 설계한 16비트 부동소수점 형식)을 지원하지 않는다. 로컬 추론 용도에서는 체감 영향이 크지 않지만, 하드웨어 기능 측면에서 V100이 세대적 한계에 가까워지고 있다는 신호다.

확장 가능성

V100은 32GB 변형도 존재한다. 16GB 모델의 두 배 이상 가격이지만, 여전히 수십만 원 수준이다. 32GB 두 장이면 64GB VRAM을 RTX 5090 가격의 약 20%로 확보할 수 있다. SXM2 규격은 NVLink(GPU 간 고대역폭 직접 통신 인터페이스)를 기본 지원하므로, 다중 GPU 구성에서 카드 간 통신 속도도 확보할 수 있다.

V100 외에도 선택지가 있다. NVIDIA P40은 24GB VRAM을 비슷한 가격에 제공하지만 텐서 코어가 없어 느리다. AMD MI50은 bfloat16을 지원하지만 ROCm의 현재 버전에서 공식 지원이 중단됐고, Vulkan으로 우회해야 한다. AMD MI100 32GB는 약 130만 원으로 비싸지만 최신 ROCm 지원이 살아있다.

커뮤니티 의견

V100 SXM2는 저자가 쓴 것처럼 DGX가 아니라 HGX 클래스라는 정정이 있었다. DGX는 완성된 시스템이고, HGX는 GPU 라이저 보드 규격이다. SXM4 규격의 A100 80GB 8장을 HGX에 장착하면 NVSwitch 패브릭으로 640GB의 풀링된 HBM2e를 구성할 수 있다.

프리필(prefill, 프롬프트를 처리하는 초기 단계) 속도가 에이전틱 워크로드의 실질적 병목이라는 지적이 나왔다. 저자의 구성에서 프리필 속도는 약 150 tok/s인데, 10만 토큰 컨텍스트를 처리하려면 약 11분이 걸린다. 대화형 사용에는 문제없지만, AI 코딩 에이전트처럼 긴 컨텍스트를 반복 처리하는 용도에서는 실용성이 떨어진다.

$200이라는 가격이 기존 RTX 4080($1,000 이상)의 비용을 포함하지 않는다는 점도 지적됐다. 저자도 인정하는 부분이지만, "기존 GPU가 있는 상태에서 35만 원으로 VRAM을 두 배로 늘린 업그레이드"와 "처음부터 32GB를 구성하는 비용"은 구분해서 봐야 한다.

AMD MI250X(128GB HBM2E, 3TB/s 대역폭)도 중고 시장에서 간혹 $1,000 이하에 나오지만, OAM(OCP Accelerator Module) 소켓이 필요해서 일반 메인보드에 연결할 방법이 사실상 없다는 의견이 있었다. 데이터센터 GPU의 물리적 호환성이 여전히 가장 큰 진입 장벽이다.

데이터센터 GPU의 냉각 요구 사항이 과소평가되고 있다는 경험담도 나왔다. 소비자 GPU는 작은 케이스에서 쓰로틀링으로 버티지만, 데이터센터 GPU는 아이들 상태에서도 25~35W를 소모하고 모델 로드 시 50W까지 올라간다. 추가 팬 여러 개 또는 수냉 쿨링 없이는 과열로 사용이 불가능하다.

핵심통찰

이 사례가 흥미로운 이유는 35만 원이라는 숫자 자체보다, 로컬 LLM 추론의 경제학이 변하고 있다는 점에 있다. 클라우드 API의 토큰당 과금 모델은 사용량이 많아질수록 비용이 선형으로 증가하지만, 중고 서버 GPU는 초기 투자 후 한계 비용이 0이다. 동시에 27B 파라미터급 오픈 모델이 최신 상용 모델과 벤치마크에서 경쟁하는 수준에 도달했다. 하드웨어 가격 하락과 모델 성능 상승이라는 두 곡선이 교차하는 지점에서, "로컬에서 충분히 좋은 모델을 무제한으로 돌린다"는 선택지가 실현 가능해지고 있다. 물론 팬 소음, 드라이버 호환성, 웜 리부트 이슈처럼 편의성의 대가는 분명히 존재하며, 이 트레이드오프를 받아들일 수 있는 사람에게만 성립하는 경로다.

4개의 좋아요

V100하고 MI50하고 두개가 AI 돌리기에 가성비가 좋죠

1개의 좋아요