Düşük bir bütçe ve sınırlı bilgisayar gücüyle, açık kaynak kodlu bir Büyük Dil Modeli (LLM) geliştiren şirketin sektörün en büyük geliştiricileriyle "aşık atabilir" hale gelmesi, bu alanda milyarlarca dolar harcayan teknoloji şirketlerinin maliyetlerini sorgular hale getirirken, ABD borsalarında teknoloji hisselerinin değer kaybetmesine yol açtı.
ABD'nin ileri teknoloji çiplerin Çin'e ihracatını kontrol altına alarak ülkenin yapay zeka gibi çığır açıcı teknolojilerdeki gelişimine set çekmeye çalıştığı bir dönemde, Çinli bir şirketin kısıtlı olanaklarla ABD'deki muadilleri kadar verimli bir üretken yapay zeka aracı yaratabilmesi, teknoloji kısıtlamalarının etkinliğini de sorgulanır hale getirdi.
Kimileri, bu durumu ABD ile Sovyetler Birliği arasında İkinci Dünya Savaşı sonrasında uzay yarışını başlatan gelişme olarak görülen, Sovyetler'in 1957'de Sputnik uydusunu fırlatmasına benzeterek, bunun ABD ile Çin arasındaki rekabette yapay zeka alanında yarış başlatacak bir "Sputnik anı" olduğu yorumunda bulundu.
Açık kaynak kodlu ve ücretsiz olması sebebiyle hızla yayılarak popülerleşen modeli, ileri yapay zeka sistemlerinin demokratikleşmesi açısından olumlu bir gelişme olarak değerlendirilirken, bunu Çin'in ABD hakimiyetindeki sektörü baltalama girişimi olarak görenler de var.
V3: DÜŞÜK MALİYETLE YÜKSEK PERFORMANS
DeepSeek'in teknoloji gündemine hızlı girişi, 26 Aralık 2024'te piyasa sürdüğü "DeepSeek V3" adlı modeli ile oldu. Çin'de yalnızca iki yıllık geçmişi olan bir start-up şirketi tarafından geliştirilen bu yapay zeka sohbet robotu, ABD'deki muadili modellerden daha iyi performans sergiledi.
Şirketin aynı gün açıkladığı teknik rapora göre, 671 milyar parametre içeren bu modelin eğitimi yalnızca 2 ay sürdü ve 5,58 milyon dolar gibi küçük bir bütçeyle gerçekleştirildi.
Modelin eğitiminde ABD'li çip üreticisi Nvidia'nın, Çin'e yönelik ihracat kısıtlamalarına uymak için tasarladığı daha düşük teknolojili H800 grafik işlemci üniteleri (GPU) kullanılırken 2,78 milyon GPU saatinde tamamlandı.
Facebook'un çatı şirketi Meta'nın geliştirdiği Llama 3.1 modelinin eğitilmesi, daha ileri teknolojili H100 çiplerin kullanılmasına rağmen 30,8 milyon GPU saati sürmüştü.
DeepSeek V3, yapılan testlerde metin anlama, alan uzmanlığı bilgisi, kodlama ve matematik problemlerini çözümü gibi yapay zeka kabiliyetlerinde büyük yatırımlarla geliştirilen Llama 3.1 ve Çinli teknoloji şirketi Alibaba'nın Qwen 2.5 gibi modellerinden daha iyi performans gösterdi.
Öte yandan aynı testlerde, Microsoft destekli OpenAI'ın GPT-4o ve Amazon destekli Anthropic'in Calude 3.5 Sonnet modellerine de eşdeğer sonuçlar elde edildi.
R1: AKIL YÜRÜTME MODELİ
DeepSeek, ABD Başkanı Donald Trump'ın yemin ederek göreve başladığı 20 Ocak'ta "R1" adını verdiği akıl yürütme modelini piyasaya sürdü.
"Akıl yürütme modeli" olarak adlandırılan bir yapay zeka fonksiyonu eklenen bu versiyon, sorulara yaklaşımını ve kendi akıl yürütme tarzını görüntüleyerek, daha fazla veriye gerek kalmadan kendini eğitebiliyor, bir uzmanın tabiriyle "sesli düşünebiliyor."
DeepSeek'in modeli yapay zeka dünyasında daha önce bilinmeyen yeni bir şey getirmese de OpenAI'ın benzer özellikteki ileri "o1" modelinden daha iyi performans sergilemesi, hala süren panik halini başlatan asıl gelişme oldu.
OpenAI'ın o1 entegre uygulaması 200 dolara satılırken, DeepSeek'in R1'inin bedava dağıtılması ve açık kaynak kodlu olması, yapay zeka alanında büyük yatırımlar yapan teknoloji şirketlerinin hisselerinin değer kaybetmesine yol açtı.
DeepSeek'in R1 akıl yürütme modeli, California Üniversitesi araştırmacılarının yapay zeka uygulamalarının performans bakımından derecelendirdikleri Chatbot Arena'da Google'ın Gemini ailesinden iki modelin ardından üçüncü sırada yer alırken, OpenAI'on o1 modelini geride bıraktı.
R1 modelinin entegre edildiği sohbet robotu, Apple'ın ABD uygulama mağazasında OpenAI'ın geliştirdiği sohbet robotu ChatGPT'den daha fazla indirilirken, aynı zamanda en fazla indirilen bedava uygulama oldu.
Yorumcuların dikkatine… • İmlası çok bozuk, • Büyük harfle yazılan, • Habere değil yorumculara yönelik, • Diğer kişilere hakaret niteliği taşıyan, • Argo, küfür ve ırkçı ifadeler içeren, • Bir iki kelimelik, konuyu zenginleştirmeyen, yorumlar KESİNLİKLE YAYIMLANMAYACAKTIR. |
Bunlar da ilginizi çekebilir...