
EleutherAI, yapay zeka araştırmaları yürüten bir kuruluş, AI modellerinin eğitimi için lisanslı ve açık alan metinlerinden oluşan en büyük koleksiyonlarından birini yayınladı.
Bu veri seti, The Common Pile v0.1, AI girişimleri Poolside, Hugging Face ve diğerleri ile birlikte birçok akademik kurumla yapılan iş birliği sonucunda yaklaşık iki yıl süren bir çalışma ile tamamlandı. 8 terabayt boyutundaki bu veri seti, EleutherAI’nin geliştirdiği iki yeni AI modeli olan Comma v0.1-1T ve Comma v0.1-2T için kullanıldı. EleutherAI, bu modellerin, lisanssız ve telifli verilerle geliştirilen modellerle benzer performans gösterdiğini iddia ediyor.
OpenAI gibi AI şirketleri, model eğitim verilerini oluşturmak için telif hakkı korunan materyalleri de içeren web’den veri toplama yöntemleri nedeniyle dava süreçleri ile karşı karşıya kalmış durumda. Bazı AI şirketleri belirli içerik sağlayıcılarıyla lisans anlaşmaları yapmış olsa da, çoğu, ABD’deki adil kullanım yasasının onlara, izinsiz telif hakkı korunan eserler üzerinde eğitim yapma durumunda sorumluluk yüklemediğini savunuyor.
EleutherAI, bu davaların AI şirketlerinin şeffaflığını “ciddi şekilde azalttığını” belirtiyor. Bu durumun, AI araştırmalarını zorlaştırarak modellerin çalışma şekillerini ve olası hatalarını anlamayı güçleştirdiği ifade ediliyor.
EleutherAI’nin yürütücü direktörü Stella Biderman, Hugging Face’teki bir blog yazısında, “[Telif hakkı] davaları, veri toplama uygulamalarını anlamlı şekilde değiştirmedi, ancak şirketlerin katıldığı şeffaflığı ciddi şekilde azalttı” dedi. “Görüşmeler yaptığımız bazı şirketlerdeki araştırmacılar, yürüttükleri veri odaklı araştırmaları yayınlayamamaları için davaları sebep olarak gösterdi.”
The Common Pile v0.1, Hugging Face’in AI geliştirme platformu ve GitHub üzerinden indirilebilir. Bu veri seti, 300,000’den fazla kamuya açık alan kitabı gibi kaynaklardan ve yasal uzmanlarla yapılan danışmalarla oluşturulmuştur. EleutherAI ayrıca, sesli içerikleri yazıya dökmek için OpenAI’nin açık kaynaklı konuşma metni modelini olan Whisper’ı da kullanmıştır.
EleutherAI, Comma v0.1-1T ve Comma v0.1-2T modellerinin, Common Pile v0.1’in dikkatlice hazırlandığını ve geliştiricilerin özel alternatiflerle rekabet edebilecek modeller oluşturmalarına olanak tanıdığını ileri sürüyor. EleutherAI’ye göre bu modeller, her biri 7 milyar parametreye sahip ve Common Pile v0.1’in yalnızca bir kısmı üzerinde eğitim almış olmalarına rağmen, Meta’nın ilk Llama AI modeli ile karşılaştırıldığında kodlama, görüntü anlama ve matematik alanlarında benzer performans sergiliyor.
Parametreler, bazen ağırlıklar olarak adlandırılan, bir AI modelinin davranışını ve yanıtlarını yönlendiren iç bileşenlerdir.
“Genel olarak, lisanssız metinlerin performansı artırdığına dair yaygın inancın temelsiz olduğunu düşünüyoruz,” diyen Biderman, “Açık lisanslı ve kamuya açık verilerin miktarı arttıkça, açık lisanslı içerik üzerinde eğitilen modellerin kalitesinin de artmasını bekleyebiliriz.” şeklinde ekledi.
Common Pile v0.1, EleutherAI’nin geçmişteki hatalarını düzeltme çabalarının bir parçası gibi görünüyor. Yıllar önce, şirket, telif hakkı korunan materyalleri de içeren eğitim metinleri için açık bir koleksiyon olan The Pile‘ı yayınlamıştı. AI şirketleri, The Pile’ı kullanarak modellerini eğittikleri için eleştiri ve yasal baskı altında kalmışlardı.
EleutherAI, araştırma ve altyapı ortaklarıyla iş birliği yaparak açık veri setlerini daha sık bir şekilde yayınlama taahhüdünde bulunuyor.