Google Gemma 4 12B IT을 로컬에서 돌리려면 VRAM이 얼마나 필요한가요?

최소 8GB, 권장 16GB입니다. 양자화 참고: Q4_0 기준 최소 8GB, SFP8/긴 컨텍스트는 16GB 권장.

로컬AI모아 L-TPS Index는 어떻게 읽나요?

로컬AI모아가 동일 조건(Q4 양자화·8K 컨텍스트)에서 기기 대역폭·VRAM 여유를 반영해 산출하는 상대 추론 속도 지표입니다. 벤치마크 대체가 아닌 카드·표 비교용 추정치입니다.

GeForce RTX 5060 Ti 16GB 그래픽카드에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?

로컬AI모아 L-TPS Index 추정치는 약 55 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.

GeForce RTX 5070 12GB 그래픽카드에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?

로컬AI모아 L-TPS Index 추정치는 약 85 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.

GeForce RTX 4060 Ti 16GB 그래픽카드에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?

로컬AI모아 L-TPS Index 추정치는 약 31 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.

Mac mini M4에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?

로컬AI모아 L-TPS Index 추정치는 약 23 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.

Google Gemma 4 12B IT에 가장 저렴하게 맞는 기기는?

GeForce RTX 5060 Ti 16GB 그래픽카드(🖥️ GPU) — ₩906,000, VRAM 적합도 「쾌적」.

Google Gemma 4 12B IT

인코더 없는 12B 멀티모달 Gemma 4 모델로 텍스트·이미지·오디오 입력과 로컬 에이전트 작업에 적합.

텍스트12B권장 VRAM 16GB최소 8GBQ4_0 기준 최소 8GB, SFP8/긴 컨텍스트는 16GB 권장

모델 다운로드 · 설치

Google Gemma 4 12B IT 가중치·설치 안내는 제조사/오픈소스 공식 페이지에서 확인하세요. Ollama·LM Studio 등은 해당 페이지의 안내를 따르면 됩니다.

공식 모델 페이지에서 받기

돌릴 수 있는 기기 (31) · 가격 낮은 순

L-TPS Index 벤치마크 표

Google Gemma 4 12B IT 호환 기기별 L-TPS Index — Q4 · 8K 컨텍스트 기준 상대 추정치

GeForce RTX 5060 Ti 16GB 그래픽카드🖥️ GPU

쾌적55

GeForce RTX 5070 12GB 그래픽카드🖥️ GPU

최소 이상85

GeForce RTX 4060 Ti 16GB 그래픽카드🖥️ GPU

쾌적31

GeForce RTX 5070 Ti 16GB 그래픽카드🖥️ GPU

쾌적116

GeForce RTX 4070 Ti SUPER 16GB 그래픽카드🖥️ GPU

쾌적83

GeForce RTX 5080 16GB 그래픽카드🖥️ GPU

쾌적127

AMD Radeon AI PRO R9700 32GB🗄️ 서버 GPU

매우 쾌적36

APPLE 맥북에어15 M5 10코어 GPU 32GB 1TB🍎 Mac

매우 쾌적11

Google Gemma 4 12B IT 호환 기기별 L-TPS Index — Q4 · 8K 컨텍스트 기준 상대 추정치
이름	VRAM 적합	L-TPS Index
GeForce RTX 5060 Ti 16GB 그래픽카드🖥️ GPU	쾌적	55
GeForce RTX 5070 12GB 그래픽카드🖥️ GPU	최소 이상	85
GeForce RTX 4060 Ti 16GB 그래픽카드🖥️ GPU	쾌적	31
GeForce RTX 5070 Ti 16GB 그래픽카드🖥️ GPU	쾌적	116
GeForce RTX 4070 Ti SUPER 16GB 그래픽카드🖥️ GPU	쾌적	83
GeForce RTX 5080 16GB 그래픽카드🖥️ GPU	쾌적	127
AMD Radeon AI PRO R9700 32GB🗄️ 서버 GPU	매우 쾌적	36
APPLE 맥북에어15 M5 10코어 GPU 32GB 1TB🍎 Mac	매우 쾌적	11

모델 스펙 (L-TPS 계산)

Google Gemma 4 12B IT L-TPS 계산용 모델 스펙
파라미터	12B
L-TPS 계산 가중치	6.0 GBparams_B × quant_bytes
필요 VRAM (추정)	8.0 GBmax(model_weight × 1.2, 최소 VRAM)
권장 VRAM	16GB
최소 VRAM	8GB
양자화 기본값	Q4_0 기준 최소 8GB, SFP8/긴 컨텍스트는 16GB 권장

VRAM 요구

Google Gemma 4 12B IT VRAM 요구 사양
항목	값	설명
권장 VRAM	16GB	쾌적한 Q4~Q8 추론 구간
최소 VRAM	8GB	양자화 필수·터킹 가능 구간
양자화	Q4_0 기준 최소 8GB, SFP8/긴 컨텍스트는 16GB 권장

자주 묻는 질문

Google Gemma 4 12B IT을 로컬에서 돌리려면 VRAM이 얼마나 필요한가요?: 최소 8GB, 권장 16GB입니다. 양자화 참고: Q4_0 기준 최소 8GB, SFP8/긴 컨텍스트는 16GB 권장.
로컬AI모아 L-TPS Index는 어떻게 읽나요?: 로컬AI모아가 동일 조건(Q4 양자화·8K 컨텍스트)에서 기기 대역폭·VRAM 여유를 반영해 산출하는 상대 추론 속도 지표입니다. 벤치마크 대체가 아닌 카드·표 비교용 추정치입니다.
GeForce RTX 5060 Ti 16GB 그래픽카드에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?: 로컬AI모아 L-TPS Index 추정치는 약 55 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.
GeForce RTX 5070 12GB 그래픽카드에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?: 로컬AI모아 L-TPS Index 추정치는 약 85 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.
GeForce RTX 4060 Ti 16GB 그래픽카드에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?: 로컬AI모아 L-TPS Index 추정치는 약 31 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.
Mac mini M4에서 Google Gemma 4 12B IT을 돌리면 속도가 어떻게 나오나요?: 로컬AI모아 L-TPS Index 추정치는 약 23 tok/s (Q4·8K 컨텍스트, 상대 비교용)입니다.
Google Gemma 4 12B IT에 가장 저렴하게 맞는 기기는?: GeForce RTX 5060 Ti 16GB 그래픽카드(🖥️ GPU) — ₩906,000, VRAM 적합도 「쾌적」.