Yerel büyük dil modellerini (LLM) çalıştırmak, son zamanlarda hem bireysel geliştiricilerin hem de kurumların ilgisini çeken bir alan haline geldi. Kendi sunucularında veya bilgisayarlarında LLM çalıştırmak isteyenler için donanım gereksinimleri kritik bir öneme sahip. Özellikle VRAM (Video Random Access Memory) miktarı, modelin boyutuna ve performansına doğrudan etki eden en önemli faktörlerden biri. Bu rehberde, 8GB VRAM’den başlayıp 70 milyar parametreli modellere kadar uzanan bir yelpazede, yerel LLM çalıştırmak için gereken donanım özelliklerini, quantization tekniklerini ve performans beklentilerini derinlemesine inceleyeceğiz.
Kendi verilerimizle eğitilmiş veya ince ayar yapılmış modelleri uzaktaki sunucular yerine lokalimizde çalıştırmak, gizlilik, maliyet ve kontrol açısından önemli avantajlar sunar. Ancak bu, doğru donanım yatırımı yapmayı gerektirir. LLM’ler, parametre sayılarına göre büyük bellek ve işlem gücü ihtiyacı duyarlar. Modelin boyutu arttıkça, bu gereksinimler de katlanarak artar. Bu yazıda, bu gereksinimleri anlamak ve bütçenize en uygun donanımı seçmek için nelere dikkat etmeniz gerektiğini adım adım anlatacağım.
8GB VRAM ile Başlangıç: Küçük Modeller ve Kısıtlamalar
8GB VRAM, günümüz standartlarında küçük bir miktar olarak kabul edilebilir. Ancak bu, yerel LLM dünyasına adım atmak için tamamen yetersiz olduğu anlamına gelmez. Bu seviyedeki bir VRAM ile, genellikle daha küçük parametreli modelleri veya quantization uygulanmış daha büyük modelleri çalıştırabilirsiniz. Örneğin, 7 milyar parametreli (7B) modellerin bazı quantization’lı versiyonları veya 3 milyar parametreli (3B) modeller bu donanımda çalıştırılabilir.
Bu donanımda bir LLM çalıştırırken en büyük kısıtlamanız, modelin kendisidir. Büyük ve karmaşık modelleri çalıştıramazsınız. Modellerin “quantization” seviyesi de burada büyük önem taşır. Quantization, modelin ağırlıklarını daha düşük hassasiyetli veri tiplerine (örneğin, FP16 yerine INT8 veya INT4) dönüştürerek bellek kullanımını azaltma işlemidir. 8GB VRAM ile çalışırken, genellikle 4-bit quantization (Q4) uygulanmış modeller en iyi seçeneğiniz olacaktır. Bu, modelin doğruluğunda küçük bir kayıp olsa da, daha büyük modelleri düşük VRAM’de çalıştırmanıza olanak tanır.
Örnek olarak, ollama run llama3:8b-instruct-q4_K_M komutu ile Llama 3’ün 8 milyar parametreli, 4-bit quantization uygulanmış bir versiyonunu lokalinizde çalıştırabilirsiniz. Bu tür modeller, basit sohbet botları, metin özetleme veya kod tamamlama gibi görevler için yeterli olabilir. Ancak daha karmaşık analizler veya uzun metin üretimleri için yetersiz kalacaktır. Bu seviyedeki donanımla, inferans (çıkarım) hızları da düşük olacaktır, yani modelin bir yanıt üretmesi için bekleme süresi daha uzun olur.
12GB - 16GB VRAM: Orta Seviye LLM’ler İçin İdeal Alan
12GB ile 16GB arasındaki VRAM miktarı, yerel LLM çalıştırmak isteyenler için “tatlı nokta” olarak kabul edilebilir. Bu aralık, daha geniş bir model yelpazesini çalıştırmanıza olanak tanır. Özellikle 7B ve 13B parametreli modellerin quantization’lı versiyonları akıcı bir şekilde çalıştırılabilir. Hatta bazı 30B modellerin agresif quantization’lı sürümleri de bu donanımda denenebilir.
Bu VRAM aralığında, 8-bit quantization (Q8) veya daha gelişmiş 4-bit quantization formatları (örneğin, q4_K_M veya q4_K_S gibi) ile modelleri çalıştırmak mümkün hale gelir. Bu, hem bellek kullanımını optimize ederken hem de modelin doğruluğunu nispeten yüksek tutmanızı sağlar. İnferans hızları da 8GB VRAM’e göre belirgin şekilde artar, bu da daha interaktif bir kullanıcı deneyimi sunar.
Örneğin, 13 milyar parametreli bir modeli q5_K_M gibi bir quantization seviyesiyle çalıştırmak, 16GB VRAM’e sahip bir sistemde oldukça makul performans verebilir. Bu, daha karmaşık soru-cevap görevleri, yaratıcı metin yazımı veya daha uzun kod snippet’leri üretimi için yeterli olabilir. Bu seviyedeki donanımla, birden fazla modeli aynı anda denemek veya daha hızlı iterasyonlarla denemeler yapmak da mümkün olur.
Bu donanım seviyesinde sisteminizin geri kalanının da yeterli olması önemlidir. Yeterli bir CPU, hızlı bir SSD ve yeterli RAM (genellikle 32GB önerilir), LLM’nin genel performansını olumlu etkiler. Özellikle modelin VRAM’e sığmayan kısımları RAM’e yüklendiğinde veya veri işleme sırasında CPU’nun rolü artar.
24GB - 32GB VRAM: Yüksek Performans ve Büyük Modeller
24GB ve 32GB VRAM, yerel LLM çalıştırmada ciddi bir performans seviyesi sunar. Bu donanım ile, 30B ve hatta 70B parametreli modellerin quantization’lı versiyonlarını rahatlıkla çalıştırabilirsiniz. Bu, daha önce sadece üst düzey sunucularda mümkün olan modelleri kendi bilgisayarınızda kullanabilmeniz anlamına gelir.
30B modelleri, genellikle 4-bit veya 5-bit quantization ile bu VRAM’de akıcı bir şekilde çalışır. 70B modeller için ise genellikle 4-bit quantization (Q4) veya daha düşük seviyeler (Q3, Q2) gerekebilir. Örneğin, llama3:70b-instruct-q4_K_M gibi bir modeli 32GB VRAM’e sahip bir sistemde çalıştırmak mümkün olabilir. Bu, inanılmaz derecede güçlü ve yetenekli modellerle çalışabileceğiniz anlamına gelir.
Bu seviyedeki VRAM ile inferans hızları oldukça yüksektir. Bu, karmaşık görevlerde bile hızlı yanıtlar alabileceğiniz, canlı uygulamalar geliştirebileceğiniz veya büyük veri setlerini analiz edebileceğiniz anlamına gelir. Ayrıca, bu donanım ile daha az quantization uygulanmış modelleri de deneyebilirsiniz. Örneğin, 70B bir modeli FP16 (16-bit kayan nokta) formatında çalıştırmak için yaklaşık 140GB VRAM gerekirken, 4-bit quantization ile bu ihtiyaç 35-40GB’a düşer. Bu nedenle 32GB VRAM, 70B modeller için quantization’lı da olsa sınıra yakın bir değerdir.
Bu donanım seviyesinde, sistemin geri kalanının da bu performansı desteklemesi önemlidir. Güçlü bir çok çekirdekli CPU, hızlı NVMe SSD’ler ve bol miktarda sistem RAM’i (64GB veya daha fazlası önerilir) gereklidir. Özellikle büyük modellerle çalışırken, model ağırlıklarının RAM’den GPU’ya hızlı bir şekilde aktarılması gerekir. Ayrıca, bu seviyedeki donanım, birden fazla GPU’yu birleştirerek daha büyük modelleri çalıştırmak veya daha da yüksek performans elde etmek için de kullanılabilir.
48GB VRAM ve Ötesi: Profesyonel Kullanım ve Dev Modeller
48GB VRAM ve daha fazlası, genellikle profesyonel kullanımlar, araştırma laboratuvarları ve en büyük LLM’leri çalıştırmak isteyen ileri düzey kullanıcılar için ayrılmıştır. Bu seviyedeki donanımla, en büyük ve en yetenekli modelleri, minimum quantization ile veya hiç quantization olmadan çalıştırmak mümkündür.
NVIDIA RTX 4090 (24GB) veya RTX 3090 (24GB) gibi kartların birden fazla kullanıldığı sistemler veya NVIDIA A6000 (48GB) gibi profesyonel kartlar bu kategoriye girer. Bu kartlar, 70B parametreli modelleri FP16 formatında çalıştırmak için yeterli VRAM’e sahiptir. Bu, modelin en yüksek doğruluğu ve performansı ile çalıştırılabileceği anlamına gelir.
Bu donanım seviyesinde, sadece inferans yapmakla kalmaz, aynı zamanda modelleri ince ayar (fine-tuning) yapmak da mümkün hale gelir. Fine-tuning, mevcut bir LLM’yi belirli bir görev veya veri seti üzerinde eğiterek performansını artırma işlemidir. Bu işlem, inferanstan çok daha fazla VRAM ve işlem gücü gerektirir. Örneğin, 70B bir modeli fine-tune etmek için 80GB veya daha fazla VRAM gerekebilir.
Bu seviyedeki donanımla, LLM’lerin sınırlarını zorlamak mümkündür. Hatta birden fazla GPU’yu NVLink gibi teknolojilerle birleştirerek terabaytlarca VRAM’e ulaşmak ve en büyük modelleri çalıştırmak mümkündür. Bu tür sistemler, genellikle yapay zeka araştırmaları, büyük ölçekli doğal dil işleme projeleri ve karmaşık analitik görevler için kullanılır. Sistem RAM’i olarak 128GB veya daha fazlası önerilir ve depolama için yüksek hızlı PCIe 4.0 NVMe SSD’ler vazgeçilmezdir.
Quantization’ın Rolü: VRAM Tasarrufu ve Performans Dengesi
Daha önce de belirttiğim gibi, quantization yerel LLM çalıştırmada kilit bir rol oynar. Quantization’ın temel amacı, modelin bellek gereksinimlerini azaltmaktır. Bunu, modelin ağırlıklarını temsil etmek için kullanılan veri tiplerinin hassasiyetini düşürerek yapar. Örneğin, bir modelin ağırlıklarını 16-bit kayan nokta (FP16) yerine 4-bit tam sayı (INT4) olarak sakladığınızda, bellek kullanımını kabaca 4 kat azaltmış olursunuz.
Ancak quantization’ın sadece bellek tasarrufu sağladığını düşünmek yanıltıcı olur. Düşük hassasiyetli veri tipleri, işlemci (CPU) ve özellikle grafik işlemcisi (GPU) tarafından daha hızlı işlenebilir. Bu, inferans hızlarında önemli bir artışa yol açabilir. Yani, quantization hem VRAM’de yer açar hem de performansı artırabilir.
Quantization seviyeleri arasında bir denge kurmak önemlidir. Daha düşük quantization seviyeleri (örneğin, Q2 veya Q3), daha fazla bellek tasarrufu sağlar ve daha yüksek hızlara ulaşır, ancak modelin doğruluğunda daha belirgin kayıplara neden olabilir. Daha yüksek quantization seviyeleri (örneğin, Q6 veya Q8) ise modele daha yakın bir doğruluk sunar, ancak daha fazla VRAM kullanır ve daha yavaş olabilir.
Genel bir kural olarak, eğer 70B bir modeli yerel makinenizde çalıştırmak istiyorsanız, minimum 4-bit quantization (Q4) kullanmanız gerekecektir. 30B modeller için Q5 veya Q6 iyi bir denge sunabilir. 13B ve 7B modeller ise Q8 veya hatta FP16 (eğer yeterli VRAM varsa) ile çalıştırılabilir. Hangi quantization seviyesinin sizin için en uygun olduğunu belirlemek için farklı modeller ve seviyelerle denemeler yapmanız önerilir.
Gerçek Dünya Donanım Seçenekleri ve Fiyatlandırma
Yerel LLM çalıştırmak için donanım seçimi yaparken, bütçe ve performans hedeflerinizi göz önünde bulundurmanız gerekir. İşte piyasada bulunan bazı popüler seçenekler ve tahmini fiyat aralıkları:
-
Giriş Seviyesi (8GB - 12GB VRAM):
- GPU’lar: NVIDIA GeForce RTX 3060 (12GB), RTX 4060 Ti (8GB/16GB).
- Tahmini Maliyet: GPU için ~300-500$. Sistem toplamı ~700-1000$.
- Kullanım Alanı: Küçük LLM’ler (7B Q4/Q5), basit görevler.
-
Orta Seviye (16GB - 24GB VRAM):
- GPU’lar: NVIDIA GeForce RTX 3090 (24GB), RTX 4070 Ti SUPER (16GB), RTX 4080 SUPER (16GB), RTX 4090 (24GB).
- Tahmini Maliyet: GPU için ~700-1600$. Sistem toplamı ~1500-2500$.
- Kullanım Alanı: Orta boy LLM’ler (13B Q4/Q5, 30B Q4), daha hızlı inferans.
-
Üst Seviye (32GB - 48GB VRAM):
- GPU’lar: NVIDIA RTX 4090 (24GB) (birden fazla), NVIDIA RTX A5000 (24GB), NVIDIA RTX A6000 (48GB).
- Tahmini Maliyet: GPU için ~1500-4500$ (kart başına). Sistem toplamı ~3000-6000$ ve üzeri.
- Kullanım Alanı: Büyük LLM’ler (70B Q4), fine-tuning, profesyonel kullanım.
Bu fiyatlar, piyasa koşullarına ve tedarik durumuna göre değişiklik gösterebilir. Ayrıca, sadece GPU değil, sistemin geri kalan bileşenleri de önemlidir. Yeterli CPU gücü (örneğin, Intel Core i7/i9 veya AMD Ryzen 7/9 serisi), hızlı NVMe SSD depolama (en az 1TB önerilir) ve bol miktarda sistem RAM’i (32GB minimum, 64GB+ ideal) genel deneyimi büyük ölçüde etkiler.
Donanım seçerken, kullanmayı planladığınız LLM framework’lerinin (örneğin, Ollama, LM Studio, KoboldAI, Text Generation WebUI) hangi GPU’ları ve teknolojileri desteklediğini kontrol etmek de faydalı olacaktır.
Hız, VRAM ve Quantization: Performansın Anatomisi
Yerel LLM’lerde performansı etkileyen temel faktörler VRAM miktarı, quantization seviyesi ve donanımın işlem gücüdür. Bu üçü birbiriyle sıkı bir ilişki içindedir ve birindeki iyileşme, diğerlerini de etkileyebilir.
VRAM Miktarı: En belirleyici faktördür. Modelin tamamının veya büyük bir kısmının VRAM’e sığması, inferans hızını doğrudan artırır. Eğer model VRAM’e sığmazsa, sistem RAM’ine ve hatta disk üzerine taşınması gerekir ki bu da performansı dramatik şekilde düşürür. Yeterli VRAM, daha az quantization gerektirir, bu da model doğruluğunu korur.
Quantization Seviyesi: VRAM ihtiyacını azaltır ve genellikle inferans hızını artırır. Ancak, çok düşük quantization seviyeleri doğruluk kaybına yol açabilir. Doğru quantization seviyesini seçmek, VRAM ve doğruluk arasındaki dengeyi kurmaktır. Örneğin, 70B bir modeli 32GB VRAM’de çalıştırmak istiyorsanız, 4-bit quantization şarttır. Eğer 48GB VRAM’iniz varsa, Q5 veya Q6 gibi daha yüksek seviyeleri deneyebilirsiniz.
İşlem Gücü (GPU/CPU): Model belleğe yüklendikten sonra, actual hesaplama işlemleri GPU tarafından yapılır. GPU’nun çekirdek sayısı, saat hızı ve bellek bant genişliği, inferans hızını doğrudan etkiler. CPU ise, modelin VRAM’e yüklenmesi, veri ön işleme ve arka plan görevleri için önemlidir. Yüksek performanslı bir GPU, yeterli VRAM ve doğru quantization ile birleştiğinde, en hızlı inferans sürelerini elde etmenizi sağlar.
Örnek olarak, aynı 70B modeli iki farklı sistemde çalıştıralım:
- Sistem A: 32GB VRAM, RTX 4090 (24GB) + RTX 3060 (12GB) (GPU’lar arası VRAM paylaşımı veya farklı modeller) + güçlü CPU. Model:
llama3:70b-instruct-q4_K_M. - Sistem B: 48GB VRAM, NVIDIA A6000, güçlü CPU. Model:
llama3:70b-instruct-q5_K_M.
Sistem B, daha yüksek VRAM ve daha iyi optimize edilmiş kartı sayesinde, Sistem A’ya göre daha hızlı inferans yapacak ve muhtemelen daha yüksek doğruluklu bir model kullanabilecektir. Sistem A’da ise, modelin parçalara ayrılması veya daha agresif quantization gerekebilir, bu da performansı etkiler. Token başına üretim hızı (tokens/sec) bu iki sistem arasında belirgin farklılıklar gösterecektir.
Sonuç olarak, yerel LLM deneyiminiz büyük ölçüde donanımınızla sınırlıdır. Bütçenizi ve hedeflerinizi dikkatlice değerlendirerek, sizin için en uygun donanım kombinasyonunu seçmeniz gerekir. Unutmayın ki, bu alan hızla gelişiyor ve gelecekte daha verimli modeller ve daha uygun fiyatlı donanımlar görmemiz muhtemel.