AI veri etiketlemesine yeni başlayan Encord, yükselen bir gelgit dalgasına biniyor gibi görünüyor
Röntgeni okumak veya kan lekesini yorumlamak için bir algoritma oluşturmayı düşünmeden önce, makinenin görüntüde ne olduğunu bilmesi gerekir. 2021’de 11,3 milyar dolarlık özel yatırım çeken bir alan olan sağlık hizmetlerinde yapay zekanın vaatlerinin tümü, makinelere tam olarak ne aradıklarını söyleyen dikkatlice etiketlenmiş veri kümeleri olmadan gerçekleştirilemez.
Bu etiketli veri kümelerini oluşturmak, tek boynuzlu at statüsünün kuzeyindeki şirketlerle övünen bir endüstrinin kendisi haline geliyor. Bugün, Y Combinator’dan yeni çıkmış küçük bir başlangıç olan Encord, eylemin bir parçasını almak istiyor. Bilgisayar vizyonu projeleri için etiketli veri kümeleri oluşturmayı hedefleyen Encord, CordVision adlı AI destekli bir etiketleme programının kendi beta sürümünü başlattı. Lansman Stanford Medicine, Memorial Sloan Kettering ve Kings College London’daki pilot programları takip ediyor. Ayrıca Kheiron Medical ve Viz AI tarafından test edilmiştir.
Encord, radyologların tıbbi görüntüleri iletmek için evrensel olarak kullanılan bir format olan DICOM görüntülerini yakınlaştırmasına izin veren bir dizi araç geliştirdi. Ve bir radyoloğun oturması ve tüm bir görüntüye açıklama eklemesi yerine, yazılım görüntünün yalnızca önemli bölümlerinin etiketlenmesini sağlamak için tasarlanmıştır.
Encord, 2020 yılında uygulamalı fizik alanında geçmişi olan Eric Landau ve Ulrik Stig Hansen tarafından kuruldu. Hansen, Imperial College London’da büyük tıbbi görüntü veri kümelerini görselleştirmeye odaklanan bir yüksek lisans tezi projesi üzerinde çalışıyordu. Etiketli veri kümelerinin küratörlüğünü yapmanın ne kadar zaman alıcı olduğunu ilk başta fark eden Hansen’di.
Bu etiketli veri kümeleri önemlidir, çünkü algoritmaların öğrenebileceği “temel gerçekleri” sağlarlar. Etiketli veri kümeleri gerektirmeyen yapay zeka oluşturmanın bazı yolları vardır, ancak büyük ölçüde yapay zeka (özellikle sağlık hizmetlerinde) denetimli öğrenmeye güvenmiştir ve bu da onları gerektirir.
Etiketli bir veri kümesi oluşturmak için, birden fazla doktor görüntüleri tek tek inceleyerek ilgili özelliklerin etrafına çokgenler çizer. Diğer zamanlarda, açık kaynaklı araçlar veya sensörler ile yapılabilir. Ancak her iki durumda da, bilimsel literatür, bu adımın sağlık AI dünyasında, özellikle de AI’nın büyük adımlar atacağı tahmin edilen ancak büyük ölçüde başarısız olduğu bir alan olan radyoloji söz konusu olduğunda büyük bir darboğaz olduğunu göstermektedir. herhangi bir büyük paradigma kayması.
“Tıp dünyasında çok fazla şüphecilik olduğunu biliyorum. İlerlemenin gerçekten yavaş olduğunu düşünüyoruz, “dedi Landau Techcrunch’a. “İlk etapta eğitim verilerini gerçekten düşündüğünüz bir yaklaşıma geçmenin bu modellerin ilerlemesini hızlandırmaya yardımcı olacağını düşünüyoruz.”
Frontiers in Radiology dergisindeki 2021 tarihli bir makalenin yazarlarının belirttiği gibi, yaklaşık 100.000 görüntüden oluşan bir veri kümesini etiketlemek için insan etiketleyicilerinin 24 yıl kadar çalışması gerekir. Avrupa Nükleer Tıp Birliği (EANM) ve Avrupa Kardiyovasküler Görüntüleme Birliği (EACVI) tarafından yayınlanan bir başka 2021 pozisyon bildirisi, “tıbbi görüntü analizinde etiketli verilerin elde edilmesinin zaman alıcı ve pahalı olabileceğini” belirtiyor.” Ama aynı zamanda işleri hızlandırabilecek yeni tekniklerin ortaya çıktığına da işaret ediyor.
İronik olarak, bu yeni tekniklerin kendileri yapay zekanın versiyonlarıdır. Örneğin, Radyoloji makalesindeki 2021 Sınırları, aktif bir öğrenme yaklaşımı uygulayarak sürecin% 87 daha hızlı olabileceğini göstermiştir. 100.000 Görüntü örneğine geri dönmek için 24 yılın aksine sadece 3.2 iş yılı gerekir.
Temel olarak CordVision, mikro modelleme adı verilen aktif bir öğrenme sürecinin bir versiyonudur. Bu teknik, genel olarak, bir ekibin görüntülerin küçük, temsili bir örneğini etiketlemesini sağlayarak çalışır. Daha sonra bu görüntüler üzerinde belirli bir yapay zeka eğitilir ve daha sonra yapay zekanın etiketlediği daha geniş havuza uygulanır. Daha sonra insan gözden geçirenler, etiketlemeyi sıfırdan yapmak yerine AI’nın çalışmalarını kontrol edebilirler.
Landu, Medium sayfasındaki bir blog yazısında iyi bir şekilde parçalara ayırıyor: Batman filmlerinde Batman’i tespit etmek için tasarlanmış bir algoritma yaptığınızı hayal edin. Mikro modeliniz Christian Bale batman’i tasvir eden beş görüntü üzerinde eğitilecek. Bir başkası Ben Affleck’in Batman’ini tanımak için eğitilmiş olabilir. Hep birlikte, her küçük parçayı kullanarak daha büyük algoritmayı oluşturursunuz, ardından bir bütün olarak seride serbest bırakırsınız.
“Bu, oldukça iyi çalıştığını bulduğumuz bir şey, çünkü çok, çok az açıklama yapmaktan ve süreci önyüklemekten kurtulabilirsiniz” dedi.
Encord, Landau’nun iddialarını destekleyecek veriler yayınladı. Örneğin, Kings College London ile birlikte yapılan bir araştırma, Cordvision’ı Intel tarafından geliştirilen bir etiketleme programı ile karşılaştırdı. Beş etiketleyicide 25.744 endoskopi video karesi ele alındı. CordVision kullanan gastroenterologlar 6.4 kat daha hızlı hareket ettiler.
Yöntem, 15.521 COVID-19 X-ışını test setine uygulandığında da etkiliydi. İnsanlar toplam görüntülerin sadece% 5’ini inceledi ve bir AI etiketleme modelinin nihai doğruluğu% 93.7 idi.
Bununla birlikte, Enord bu darboğazı tespit eden ve etiketleme sürecini düzeltmek için aı’yı kullanmaya çalışan tek şirketten uzak. Bu alandaki mevcut şirketler zaten büyük değerlemeler bildiriyor. Örneğin, Ölçek yapay zekası 2021’de 7,3 milyar dolarlık bir değerlemeye ulaştı ve Şnorkel tek boynuzlu at statüsüne ulaştı.
Landau’nun kabulüne göre şirketin en büyük rakibi muhtemelen Labelbox. Labelbox, TechCrunch onları A Serisi aşamada ele aldığında yaklaşık 50 müşteriyle övündü. Ocak ayında şirket 110 milyon dolarlık bir D Serisini kapattı ve 1 milyar dolarlık işaretin tükürme mesafesine koydu.
CordVision hala çok küçük bir balıktır. Ama bir veri etiketleme gelgit dalgasına yakalandı. Landau, şirketin kendi veri etiketlemesini yapmak için hala açık kaynaklı veya dahili araçlar kullanan yerlerin peşinden gittiğini söylüyor.
Şimdiye kadar şirket, Y Combinator’dan mezun olduktan sonra tohum ve A Serisi fonlamada 17.1 dolar topladı. Şirket iki kurucusundan 20 kişilik bir ekibe dönüştü. Encord, Landau’ya göre, parayı yakmıyor. Şirket şu anda bağış toplama arayışında değil ve mevcut zamların bu aracı ticarileştirme sürecinden geçirmek için yeterli olacağına inanıyor.