Yeni Proje ile Wikipedia Verileri AI’ye Daha Erişilebilir Hale Geliyor

Wikipedia Verileri

Wikimedia Deutschland, Çarşamba günü, Wikipedia’nın zengin bilgi birikimini yapay zeka modellerine daha erişilebilir hale getirecek yeni bir veritabanını tanıttı.

“Wikidata Embedding Project” olarak adlandırılan bu sistem, bilgisayarların kelimeler arasındaki anlam ve ilişkileri anlamalarına yardımcı olan vektör tabanlı anlamsal arama tekniğini, Wikipedia ve kardeş platformlar üzerindeki mevcut verilere uyguluyor. Bu sistem, yaklaşık 120 milyon kayıttan oluşuyor.

Yeni Model Context Protocol (MCP) desteği ile bir araya gelen proje, yapay zeka sistemlerinin veri kaynaklarıyla iletişim kurmalarına yardımcı olan bir standart sunarak, verilerin doğal dil sorguları için daha erişilebilir hale gelmesini sağlıyor.

Proje, Wikimedia’nın Alman şubesinin, neural search şirketi Jina.AI ve IBM’e ait gerçek zamanlı eğitim verisi şirketi DataStax ile iş birliği içinde gerçekleştirildi.

Wikidata, Wikimedia mülklerinden makine okunabilir veriler sunmaktadır, ancak önceki araçlar yalnızca anahtar kelime aramaları ve özel bir sorgu dili olan SPARQL sorgularına izin veriyordu. Yeni sistem, yapay zeka modellerinin dış bilgileri çekebilmesine imkan tanıyan retrieve-augmented generation (RAG) sistemleri ile daha iyi çalışacak, geliştiricilere modellerini Wikipedia editörleri tarafından onaylanmış bilgilerle temellendirme fırsatı sunacaktır.

Veri ayrıca önemli anlamsal bağlam sağlamak üzere yapılandırılmıştır. Örneğin, veritabanında “bilim insanı” kelimesi sorgulandığında, öne çıkan nükleer bilim insanlarının yanı sıra Bell Labs’ta çalışan bilim insanlarının listeleri de üretilecektir. Ayrıca, “bilim insanı” kelimesinin farklı dillere çevirileri, bilim insanlarının çalışma anlarını gösteren Wikimedia onaylı bir görsel ve “araştırmacı” ve “akademisyen” gibi ilgili kavramlara genişletmeler de bulunmaktadır.

Veritabanı, Toolforge üzerinde herkese açık olarak erişilebilir durumdadır. Ayrıca, Wikidata, 9 Ekim’de ilgilenen geliştiriciler için bir web semineri düzenlemektedir.

Bu yeni proje, yapay zeka geliştiricilerinin, modellerini geliştirmek için kullanabilecekleri yüksek kaliteli veri kaynakları arayışında olduğu bir dönemde hayata geçirildi. Eğitim sistemleri daha karmaşık hale gelirken, yine de iyi işleyebilmek için titizlikle seçilmiş verilere ihtiyaç duymaktadır. Yüksek doğruluk gerektiren uygulamalar için güvenilir veri ihtiyacı özellikle acildir ve bazıları Wikipedia’ya ön yargıyla yaklaşsalar da, verileri, internetten toplanan devasa web sayfası koleksiyonları olan Common Crawl gibi veritabanlarından çok daha fazla gerçek bilgi içermektedir.

Yüksek kaliteli veriye yönelik baskının bazı AI laboratuvarları için maliyetli sonuçları olabiliyor. Ağustos ayında, Anthropic, eğitim materyali olarak kullanılan bir grup yazarla bir davayı uzlaşarak kapatmak için $1.5 milyar ödemeyi kabul etti.

Wikidata AI proje yöneticisi Philippe Saadé, projenin büyük AI laboratuvarlarından veya teknoloji şirketlerinden bağımsız olduğunu vurgulayarak, “Bu Embedding Project lansmanı, güçlü yapay zekanın birkaç şirket tarafından kontrol edilmesi gerekmediğini gösteriyor,” dedi. “Açık, iş birliğine dayalı ve herkese hizmet edecek şekilde inşa edilebilir.”

Exit mobile version