NVIDIA H200 NVL 141GB으로 로컬 LLM을 돌리려면 어떤 스펙이 중요한가요?

🗄️ 서버 GPU 기준으로 GPU/칩(H200 141GB), 메모리(VRAM 141GB)가 핵심입니다. L-TPS는 메모리 대역폭·추론 효율·모델 가중치로 상대 비교합니다.

로컬AI모아 L-TPS Index란 무엇인가요?

로컬AI모아가 동일 조건(Q4 양자화·8K 컨텍스트)에서 기기 대역폭·VRAM 여유를 반영해 산출하는 상대 추론 속도 지표입니다. 벤치마크 대체가 아닌 카드·표 비교용 추정치입니다.

로컬AI모아 L-TPS Index 추정치는 약 972 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.

로컬AI모아 L-TPS Index 추정치는 약 12960 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.

로컬AI모아 L-TPS Index 추정치는 약 972 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.

최소 1GB · 권장 2GB 모델 기준 적합도는 「매우 쾌적」입니다.

141GB HBM3e VRAM으로 100B급 이상 모델과 긴 컨텍스트 실험까지 노릴 수 있는 Hopper GPU.

🗄️ 서버 GPUVRAM 141GB4,800 GB/s

NVIDIA H200 NVL 141GB에서 호환 모델별 L-TPS Index — Q4 · 8K 컨텍스트 기준 상대 추정치

Kokoro 82M82M

매우 쾌적972

NVIDIA Parakeet TDT 0.6B v30.6B

매우 쾌적12960

Whisper Large v3 Turbo809M

매우 쾌적972

Chatterbox TTS0.5B

매우 쾌적15552

Microsoft Phi-4 Mini Reasoning4B

매우 쾌적1944

Google Gemma 4 E2B ITE2B

매우 쾌적3888

Google Gemma 4 12B IT12B

매우 쾌적648

Google Gemma 4 E4B ITE4B

매우 쾌적1944

NVIDIA H200 NVL 141GB에서 호환 모델별 L-TPS Index — Q4 · 8K 컨텍스트 기준 상대 추정치
이름	VRAM 적합	L-TPS Index
Kokoro 82M82M	매우 쾌적	972
NVIDIA Parakeet TDT 0.6B v30.6B	매우 쾌적	12960
Whisper Large v3 Turbo809M	매우 쾌적	972
Chatterbox TTS0.5B	매우 쾌적	15552
Microsoft Phi-4 Mini Reasoning4B	매우 쾌적	1944
Google Gemma 4 E2B ITE2B	매우 쾌적	3888
Google Gemma 4 12B IT12B	매우 쾌적	648
Google Gemma 4 E4B ITE4B	매우 쾌적	1944

NVIDIA H200 NVL 141GB으로 로컬 LLM을 돌리려면 어떤 스펙이 중요한가요?: 🗄️ 서버 GPU 기준으로 GPU/칩(H200 141GB), 메모리(VRAM 141GB)가 핵심입니다. L-TPS는 메모리 대역폭·추론 효율·모델 가중치로 상대 비교합니다.
로컬AI모아 L-TPS Index란 무엇인가요?: 로컬AI모아가 동일 조건(Q4 양자화·8K 컨텍스트)에서 기기 대역폭·VRAM 여유를 반영해 산출하는 상대 추론 속도 지표입니다. 벤치마크 대체가 아닌 카드·표 비교용 추정치입니다.
NVIDIA H200 NVL 141GB에서 Kokoro 82M을 돌리면 속도가 어떻게 나오나요?: 로컬AI모아 L-TPS Index 추정치는 약 972 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.
NVIDIA H200 NVL 141GB에서 NVIDIA Parakeet TDT 0.6B v3을 돌리면 속도가 어떻게 나오나요?: 로컬AI모아 L-TPS Index 추정치는 약 12960 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.
NVIDIA H200 NVL 141GB에서 Whisper Large v3 Turbo을 돌리면 속도가 어떻게 나오나요?: 로컬AI모아 L-TPS Index 추정치는 약 972 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.
NVIDIA H200 NVL 141GB에서 Kokoro 82M VRAM 적합도는?: 최소 1GB · 권장 2GB 모델 기준 적합도는 「매우 쾌적」입니다.