Sayfa Reklamları

DeepSeek, akıl yürütme (reasoning) yapabilen R1 modeli ile tüm dünyada büyük yankı uyandırdı. DeepSeek’in teknik raporuna göre model, 2000 adet bir önceki nesil H800 GPU ile eğitildi. Öte yandan, benzer yetkinlikte olduğu söylenen ChatGPT modelinin 50.000 adet çok daha gelişmiş H100 GPU kullanılarak eğitildiği iddia ediliyor. Ancak bu konuda OpenAI tarafından yapılmış resmi bir açıklama bulunmuyor. Buna rağmen, DeepSeek R1’in piyasaya sürülmesi teknoloji dünyasında büyük bir etki yarattı.

Amerikan borsalarındaki düşüş ise büyük ölçüde teknoloji hisselerinden kaynaklanıyor. En büyük değer kayıpları, Nvidia ve ARM gibi çip teknolojilerine yatırım yapan şirketlerde yaşandı. Bunun nedeni, yapay zeka modellerinin iddia edildiği kadar yüksek donanım gereksinimine sahip olmadan da çalışabileceği yönündeki şüpheler. Yani eski veya daha düşük güçlü çiplerle de benzer sonuçlar alınabiliyor olabilir. Peki, gerçekten durum böyle mi?




Öncelikle, DeepSeek’in kendisi de Nvidia grafik çipleri kullandığını teknik dokümanında açıkça belirtiyor. Peki, diyelim ki bu model gerçekten 2000 adet H800 çip ile eğitildi. Şu an milyonlarca kullanıcı DeepSeek’i aktif olarak kullanıyor, bu kadar büyük bir talebe nasıl hızlı yanıt verebiliyorlar? Burada optimizasyon devreye giriyor.


DeepSeek, MoE (Mixture of Experts) mimarisini kullanıyor. Bu mimari, büyük bir modelin tamamını çalıştırmak yerine, sorguya göre yalnızca ilgili "uzman" bileşenlerini çalıştırarak GPU kullanımını optimize ediyor. Ancak bu yöntem OpenAI, Claude gibi büyük dil modellerinde de kullanılıyor.


DeepSeek’in açık kaynak olması, onu kendi bilgisayarınızda da çalıştırabileceğiniz anlamına geliyor. Örneğin, RTX 4090 ekran kartı olan bir bilgisayarda offline olarak yapılan bir DeepSeek sorgusu yaklaşık 60 saniye sürerken, aynı sorgu bulut üzerinden (DeepSeek’in kendi sitesi üzerinden) sadece 3-4 saniye içinde yanıtlanıyor. Yani hâlâ çok ciddi bir işlem gücüne ihtiyaç var.


Bu noktada, DeepSeek’in ambargo öncesinde Nvidia’nın son model H100 çiplerinden büyük miktarda satın aldığı yönünde iddialar dolaşıyor. Ancak bu bilgilerin resmi bir teyidi yok. Eğer gerçekten böyle bir stok yapıldıysa, neden modelin eğitimi yalnızca 2000 H800 çip ile yapıldı? Neden ellerindeki fazla kaynakları kullanmadılar? Burada verimli bir eğitim süreci yürütülmüş olabileceği ihtimali devreye giriyor. Ancak milyarlarca anlık sorguya sadece 2000 H800 çip ile yanıt verilmesi mümkün değil.


Bu durum, üç olasılığı gündeme getiriyor:


1- Ambargo öncesinde binlerce H100 çipi satın almış olabilirler.


Bu düşük bir ihtimal. Zira H100 gibi talebi yüksek çiplerin, ambargo olmasa bile bu kadar büyük miktarda bir Çinli şirkete satılması pek mantıklı görünmüyor. OpenAI, Microsoft ve Google gibi dev Amerikan şirketleri bile bu çipleri temin etmekte zorlanırken, Nvidia’nın nasıl olup da DeepSeek’e bu kadar büyük bir satış yapabildiği tartışmalı.


2- Ambargo delinmiş olabilir mi?


Eğer DeepSeek bu çipleri doğrudan satın almadıysa, o zaman akıllara ambargonun bir şekilde delindiği ihtimali geliyor. Bu, çeşitli aracılar, gizli anlaşmalar veya farklı kanallar üzerinden yapılmış olabilir. Ancak böyle bir durum tespit edilirse, küresel çapta çok ciddi sonuçları olur. Umarım böyle bir senaryo söz konusu değildir.


Ancak, şirketin teknik dökümanında eğitim sürecinde Nvidia çiplerinin kullanıldığı zaten belirtilmişken, bu iki ihtimal kafaları karıştırıyor.


3- Alibaba Cloud, Tencent Cloud, Baidu AI Cloud gibi Çin merkezli veri merkezlerini kullanıyor olabilirler.


Bu, en olası senaryo. Bu veri merkezlerinde Nvidia GPU'ların yanı sıra, özel tasarlanmış FPGA'ler (Field Programmable Gate Arrays) ve Çin yapımı yapay zeka hızlandırıcı çipler (Huawei Ascend, Alibaba Hanguang gibi) kullanılıyor olabilir. Eğer bu doğruysa, DeepSeek’in algoritması gerçekten büyük bir verimlilik farkı yaratıyor demektir. Kendi bilgisayarım çok güçlü olmadığı için Llama ile DeepSeek'in 1.5 ve 3 milyar parametreli modellerini denedim. Tabii bu küçük modeller çok bir işe yaramıyor ve benchmark için çok uygun değil. Bu seviyede iki model arasında ciddi bir hız ve başarım farkı gözlemlenemiyor.


Bu durumda, eğer bir performans illüzyonu yoksa, 3 numaralı ihtimal en güçlü olanı. Ancak bu da Amerikan şirketleri için ciddi bir uyarı niteliğinde. Eğer DeepSeek, az kaynakla yüksek verimlilik sağlayan bir yöntem geliştirdiyse, ABD’li teknoloji devlerinin stratejilerini gözden geçirmesi gerekebilir.


Bu analizi yapmak için üstün bir uzmanlık gerekmiyor. Zaten Amerikan borsalarının sert tepki vermesi de konunun ciddiyetini gösteriyor. Eğer ortada çürütülebilecek bir iddia olsaydı, piyasalar bu kadar büyük bir düşüş yaşamazdı. Milyarlarca dolar kayıptan söz ediliyorsa, bu işin ardında gerçekten önemli bir gelişme var demektir.


Peki siz ne düşünüyorsunuz?

Hiç yorum yok:

Yorum Gönder

Bottom Ad [Post Page]