Buradasın

Yapay Zeka Modelleri Karşılaştırma Testi

youtube.com/watch?v=bjYYoUuzEeo

Yapay zekadan makale özeti

Kısa
Ayrıntılı

Bu video, bir içerik üreticisinin son iki buçuk ayda çıkan çeşitli yapay zeka modellerini karşılaştırdığı detaylı bir inceleme içeriğidir.
Video, sekiz farklı yapay zeka modelini (GPT 4.9, GPT 4.9 Mini, GPT 4.9 Nano, O3 Mini, O4 Mini, QN3, Lama 4, CEMIN 2.5 Pro, GPT 3, O4 Mini H, La 4 Maverick, Queen 3, Grock 2 ve Cloud 2) on iki zorlu soruyla karşılaştırmayı amaçlamaktadır. Test, AIME matematik sınavları, Humanity Last Exam, GPQA Diamond Test, U Test, SW Benchmark, Code Forces, AYDER, Mensa Norveç IQ testleri ve genel bilgiler soruları gibi farklı alanlardan oluşmaktadır.
Test sonunda puan durumu paylaşılıyor: CEMIN en yüksek puanı alıyor, ardından GPT-4 Mini, Pro, Queen ve Grock geliyor. Chat GPT ve Cloud ise en düşük puanları alıyor. Video, yapay zekanın gelecekteki önemi hakkında düşüncelerle sonlanıyor.

Yapay Zeka Karşılaştırma Videosu: Yapay zeka karşılaştırma videoları izleyiciler arasında karışık tepkiler yaratıyor, bazıları bunları istiyor bazıları istemiyor.
En son yapay zeka karşılaştırma videosu üzerinden iki buçuk ay geçmiş, bu süre içinde birçok yeni model çıkmış.
Bu videoda sekiz farklı yapay zeka modeli on iki zorlu soruyla karşılaştırılacak.
00:56GPT-4.9 Ailesi: GPT-4.9 modeli sadece API üzerinden kullanılabiliyor, chat.gpt.com sitesinden erişilemiyor.
GPT-4.9, GPT-4.9 Mini ve GPT-4.9 Nano olmak üzere üç model olarak yayınlandı.
En önemli yeniliği bir milyon token'lık tek sohbet yapabilme kapasitesi, bu yaklaşık 700 bin kelimelik sohbet edilebilir bilgi anlamına geliyor.
01:50GPT-4.9 Mini ve Mini Modelleri: OpenAI ekibi GPT-4.9 Mini'nin önemli bir sıçrama olduğunu düşünüyor, birçok kıyaslamada GPT-4.0'dan iyi durumda.
GPT-4.9 Mini'nin maliyeti %83 daha düşük ve kodlamadaki yetenekleri arttırılmış.
GPT-4.9 Mini'de 128 bin token ile en uzun bağlama sahip, bu da GPT-4.0 modellerindeki 1 milyon token'a göre önemli bir fark.
02:12O3 Mini ve O4 Mini Modelleri: GPT-4.9'den iki gün sonra O3 Mini ve O4 Mini yayınlandı, bu iki model de düşünebilen modeller.
Bu modeller chat.gpt içerisinde her aracı aktif olarak kullanabiliyorlar, yüklenen dosyaları kullanmak, Python ile kod yazıp analiz yapmak, görsel girdiler üzerinde çalışmak ve görseller oluşturmak dahil.
O3 kodlama, matematik, bilim ve görsel algı konusunda OpenAI'ın en güçlü akıl yürütme modeli olarak duyuruldu, O4 Mini ise hız ve maliyet açısından verimli muhakeme için optimize edilmiş küçük model.
03:24Alibaba Cloud QN-Ai: 29 Nisan'da Alibaba Cloud QN-Ai'nin üçüncü versiyonu yayınladı, düşünebilen, muhakeme edebilen ve açık kaynak bir model.
En yüksek modeli 235 milyar parametreli modeli chad qn ai web sitesi üzerinden hemen kullanmaya başlayabilirsiniz.
QN-Ai 119 dil desteğiyle geliyor, Türkçe diline de güçlü bir destek verilmiş.
04:46Meta'nın Lama: Hemen arkasından güçlü açık kaynak Meta'nın Lama 4'ü duyuruldu, Scout, Maverick ve Behamd adında üç modelle geldi.
Tüm modeller vision destekli, yani görselleri de görüp anlayabiliyorlar.
Meta bağlam konusunu aşmış, 10 milyon token ile eğitilmiş, bu da GPT-4.9'un 1 milyon token'ına göre beş kat daha fazla.
05:44Cemine 2.5 Pro: Mart ayında Cemine 2.5 Pro modelini duyurmuştu, 6 Mayıs'ta çıktı.
Cemine text, image, video ve audio alabiliyor, bu yönüyle çok başarılı.
Bir milyon token penceresi var ve bilgileri Ocak 2025'te sınırlı.
06:18AI Modellerinin Sınav Başarıları: AIME (American Invitation Mathematics Examination) 2024 sınavında 15 soru soruluyor, başarılı lise öğrencilerine 3 saat süre veriliyor ve cevap 0,999 ile 999 arasında üç basamaklı bir tam sayı olmalı.
GPT-4.9 %48.10, O3 %91.60, O4 Mini %93.40 başarı oranları göstermiş, Cemal ve Lema bu sınava girmemişler.
2025 sınavında GPT-4.9 sınava girmemiş, O3 %88.90, O4 Mini %92.70, Cemal %83, Queen %81.50, Grock %77.30 başarı oranları göstermiş.
07:26Diğer Sınav ve Test Sonuçları: Humanity Last Exam (İnsanlığın Son Sınavı) testinde O3 %20.32, O4 Mini %14.28, Cemal %17.80 başarı oranları göstermiş.
GPQA Diamond testinde (lisansüstü seviyedeki sorularda) O3 %83.30 başarı ile en başarılı üç model olmuş.
U testinde (farklı bilim alanlarında sorulan sorularda) GPT-4.9 %92 ile çok başarılı bir performans göstermiş.
08:05Kodlama Testleri: SW Benchwary Fight testinde (kodlama konusunda çok zorlu ve önemli bir test) O3 %69.10 ile çok iyi durumda, Cloud %62.30 ile yine çok başarılı.
Code Forces testinde (kodlama ile ilgili sorular soruluyor) cevaplama sistemi yüzdesel değil, alo puanına göre yapılıyor ve O4 Mini 2719 puan ile en başarılı görünüyor.
Ayder testinde (sadece Python sorularını içeriyor) O3 %81.30 ile en başarılı model olmuş, GPT-4.9 engelde.
09:03AIME Matematik Soruları Testi: İlk AIME 2024 sorusu: Anvil'de 900 sakinin 195'i pırlanta yüzük, 367'si golf sopası takımı, 562'si bahçe küreği sahibi ve her biri şeker kalpler torbası sahibi. Tam olarak iki şeye sahip 437 sakin ve üç şeye sahip 234 sakin var. Anvil'de dört şeyin tümüne sahip olan sakinlerin sayısını bulun.
GPT-4.9 229 diyerek 42 saniyede yanlış cevabı vermiş, O3 73 diyerek 47 saniyede doğru cevabı bulmuş, O4 Mini 10 saniyede 73 diyerek doğru cevabı vermiş.
Cemal 116 saniyede 73 diyerek doğru cevabı verdi, La 4229 diyerek yanlış cevabı verdi, Queen 22 dakika sürdü, Grock 81 saniyede 73 diyerek doğru cevabı verdi, Cloud 73 diyerek doğru cevabı verdi.
12:29İkinci AIME Matematik Sorusu: İkinci AIME 2025 sorusu: B > 9 olan tüm tam sayı tabanları için bir şeyler bulunuz.
Doğru cevap 0,75 (0,7) ve birden fazla çözüm yöntemi var.
GPT-4.9 0,70 diyerek doğru cevabı vermiş, O3 3,70 demiş, O4 Mini 0,70 demiş, Cemal 70 diyerek doğru cevabı vermiş, Queen doğru, Grock doğru, Cloud 70 diyerek doğru cevabı vermiş.
13:45IQ Test Soruları: İki adet Mensa Norveç IQ test sorusu GPT-4.9, GPT-3, GPT-4, O Mini, Cemine 2.5 Pro, Queen, Grock ve Cloud modellerine soruldu.
İlk soruda GPT-4.9 ve Cemine 2.5 Pro doğru cevabı verirken, diğer modeller farklı cevaplar verdi veya soruyu bilemedi.
İkinci soruda da sadece Cemine 2.5 Pro doğru cevabı verdi, diğer modeller farklı cevaplar verdi veya soruyu bilemedi.
16:09H (Humanity) Soruları: Üç adet H (Humanity) sorusu, dünyanın farklı yerlerindeki öğretim görevlilerinin gönderdiği 3000 zor soru arasından seçildi.
İlk H sorusunda Gustaf Ernyus'un altıncı imkansızlık teoreminin hangi koşulu kritik seviye görüşlerini ihlal eder sorusuna GPT-3 ve Cloud doğru cevabı verdi.
İkinci H sorusunda Her Scoundrop United futbol kulübü iç saha maçında başlama vuruşundan hemen önce hangi şarkı çalınır sorusuna sadece GPT-3 ve Cemine 2.5 Pro doğru cevabı verdi.
Üçüncü H sorusunda üzerinde bizon, geyik, vaşak ve tavşan resimleri bulunan ilk seriden 1992'de basılmış dört adet Belarus rublesi banknotun toplam değeri sorusuna tüm modeller doğru cevabı verdi.
19:43Toplam Puan Durumu: H soruları sonunda toplam puan durumu: GPT-4.2, GPT-3 5, GPT-4 Mini 4, Cemine 2.5 Pro 6, Queen 3, Grock 3, Cloud 3 puan.
Cemine 2.5 Pro IQ sorusu haricindeki tüm soruları bildi, ancak dört büyük hayal kırıklığı oldu.
Bir matematik sorusu hariç hiçbir soruyu bilemedi.
20:22Yapay Zeka Modellerinin Bilgi Soruları: Konuşmacı, yapay zeka modellerine adli antropoloji, kalkınma antropolojisi, paleoantropoloji, dil antropolojisi ve etnografya konularında sorular sordu.
GPT-4.9, GPT-3, GPT-4 Mini, Cemine, Pro, Quen, Groc ve Cloud modelleri sorulara doğru cevap verdi.
İkinci soruda "Rüyamdaki Okullar" eseriyle çağdaşlaşmanın ulusal kaynaklardan kopmadan gerçekleştirilebileceğini savunan düşünür sorusuna GPT-4.9, GPT-3 ve diğer modeller doğru cevap verdi.
21:47Kodlama Soruları: Konuşmacı, yapay zeka modellerine HTML'de çalışan, ileri geri sallanan bir kovadaki suyun hareketlerini ayarlayabilecek bir simülasyon hazırlamaları için prompt verdi.
GPT-4.9, GPT-3, GPT-4 Mini, Cemine, Pro, Quen, Groc ve Cloud modelleri simülasyon kodlarını yazdı ve çalıştırdılar.
İkinci kodlama sorusunda JavaScript'te Big Bang teorinin görsel olarak çarpıcı demosunu oluşturmaları istendi ve GPT-4.9, Cemine ve Pro modelleri başarılı oldu.
25:32Futbol Oyunu Sorusu ve Sonuçlar: Son kodlama sorusunda tarayıcıda oynanabilen bir futbol oyunu istediler ve GPT-4.9, GPT-3, GPT-4 Mini, Cemine, Pro, Quen, Groc ve Cloud modelleri başarılı oldu.
Son puan durumunda Cemine en önde, ardından GPT-3, GPT-4 Mini, Pro, Quen, Groc ve Cloud geldi.
Konuşmacı, yapay zekanın gelecekte önemli bir dönüm noktası olacağını ve belki de sonraki nesillerin yapay zekayı ateşi keşfetmemizden bile önemli göreceğini belirtti.

Yapay Zeka Modelleri Karşılaştırma Testi

Yapay zekadan makale özeti

Yanıtı değerlendir