Anthropic, Sonnet 4.6’yı yayınladı: 1 milyon token’lık bağlam penceresi ve yeni benchmark’lar

Model güncellemesi ve odak alanları

Anthropic, orta ölçekli Sonnet modelinin yeni sürümü Sonnet 4.6‘yı duyurdu. Şirketin dört aylık güncelleme döngüsünü sürdüren bu sürüm, özellikle kodlama, talimatları takip etme ve bilgisayar kullanımı konularında iyileştirmeler getiriyor.

Kimler için varsayılan model?

Sonnet 4.6, hem Free hem de Pro plan kullanıcıları için varsayılan model olacak. Kullanıcı deneyimini yükseltmeyi hedefleyen bu karar, daha geniş erişim ve tutarlı performans sunmayı amaçlıyor.

1 milyon token’lık bağlam penceresi

Beta aşamasında olan sürüm, 1 milyon token kapasiteli bir bağlam penceresiyle sunuluyor—Sonnet için daha önceki en büyük pencerenin iki katı büyüklükte. Şirket, bu geniş pencerenin “bir istekte tüm kod tabanlarını, uzun sözleşmeleri veya onlarca araştırma makalesini” barındırmaya yeteceğini belirtiyor.

Kullanım alanı ve faydalar

Bu boyuttaki bir bağlam penceresi, özellikle büyük yazılım projeleri, uzun hukuki metinler ve çok sayıda kaynak gerektiren araştırma görevlerinde modelin tek bir etkileşimde daha kapsamlı cevaplar üretmesini sağlayacak.

Zamanlama ve ürün yol haritası

Sonnet 4.6 duyurusu, Opus 4.6‘nın lansmanından yaklaşık iki hafta sonra geldi. Şirketin ilerleyen haftalarda güncellenmiş bir Haiku modelini de yayınlaması bekleniyor; bu, ürün ailesi güncellemelerinin ardışık hızla sürdüğüne işaret ediyor.

Benchmark sonuçları

Yeni sürüm, bir dizi kıyaslama testinde yeni rekor skorlar elde etti. OS World (bilgisayar kullanımı) ve SWE-Bench (yazılım mühendisliği) dahil olmak üzere güçlü performans gösterdi. Özellikle ARC-AGI-2 testinde aldığı %60.4 puan dikkat çekiyor; bu skor, insan zekasına özgü bazı becerileri ölçmeyi amaçlayan sınavda Sonnet 4.6’yı çoğu benzer modelin üzerine taşıyor. Ancak halen bazı modellerin, örneğin Opus 4.6, Gemini 3 Deep Think ve belirli bir rafine edilmiş GPT 5.2 versiyonunun gerisinde kaldığı not edildi.

Değerlendirme ve sonuç

Sonnet 4.6, bağlam kapasitesi ve benchmark sonuçlarıyla orta ölçekli modeller arasında güçlü bir aday olarak öne çıkıyor. Ancak en yüksek performans kategorisindeki modellerle rekabette halen bir fark bulunuyor; önümüzdeki sürümler ve rafinmanlar bu farkın kapanıp kapanmayacağını belirleyecek.

Exit mobile version