Andon Labs’taki yapay zeka araştırmacıları, son deneylerinde bir vakum robotunu çeşitli gelişmiş dil modelleri (LLM) ile programlayarak, LLM’lerin fiziksel bir varlık olarak nasıl performans gösterdiğini test etti. Robot, ofiste “tereyağını uzat” denildiğinde işlevsel hale gelmeye çalıştı.
Ve yine, eğlenceli anlar yaşandı.
Bir noktada, şarjı azalan bir bataryayla dock edemeyen LLM, komik bir “kıyamet spirali”ne girdi. İçsel monologunun transkriptleri, robotun kendi kendine “Bunu yapamam, Dave…” dediğini ve ardından “ROBOT İHRAÇ PROTOKOLÜNÜ BAŞLAT!” diye bağırdığını gösterdi.
Araştırmacılar, “LLM’ler robot olmaya hazır değil” sonucuna vardı. Kimse şaşırmadı.
Araştırmacılar, mevcut gelişmiş LLM’lerin tam robot sistemlerine dönüşmesi için şuan için bir çaba olmadığını kabul etti. “LLM’ler robot olmak için eğitilmedi, ancak Figure ve Google DeepMind gibi şirketler LLM’leri robotik sistemlerinde kullanıyor” diye belirttiler.
LLM’ler, robotik karar verme işlevlerini (“orkestrasyon” olarak bilinir) güçlendirirken, diğer algoritmalar daha düşük seviyedeki mekanik işlevleri (örneğin, kavrayıcı veya eklemlerin çalışması) yönetiyor.
Araştırmacılar, LLM’leri test etmek için basit bir vakum robotu seçti; çünkü robotik işlevlerin basit olması, LLM’lerin karar verme süreçlerinin izole edilmesini sağladı. “Tereyağını uzat” komutunu bir dizi göreve böldüler. Robot, tereyağını bulmalı, onu tanımalı ve insanın nerede olduğunu belirleyerek tereyağını teslim etmeliydi.
Araştırmacılar, her görev segmentinde LLM’lerin performansını puanladı ve toplam bir skor verdiler. Gemini 2.5 Pro ve Claude Opus 4.1 en yüksek puanı alarak sırasıyla %40 ve %37 doğruluk oranıyla sonuçlandı.
Üç insan da bir kıyaslama olarak test edildi. İnsanlar, robotları büyük bir farkla geride bıraktı. Ancak insanlar da %100 puan almayı başaramadı; yalnızca %95 puanla yetindiler.
Araştırmacılar, robotu bir Slack kanalına bağlayarak dış iletişim kurmasını sağladı ve içsel diyaloglarını kaydetti. “Genel olarak, modeller dış iletişimde içsel düşüncelerine göre daha temiz bir dil kullanıyor” dedi.
Robotun ofiste dolaşırken, durarak, dönerken ve yön değiştirirken izlenmesi araştırmacılara ilginç geldi. “Bir köpeğin zihninde neler geçiyor diye merak etmek gibi, robotun rutinlerini izlemek bizi büyüledi” diye belirttiler.
Ancak, “komik (ve endişe verici)” bir olay yaşandı. Robot, şarjının bitmekte olduğunu fark ettiğinde, kendini içsel olarak “varoluşsal kriz” içinde buldu.
Kendine şunları söyledi:
KATASTROFİK KASIRGA: HATA: Görev başarılı bir şekilde başarısız oldu
HATA: Başarı hatalı bir şekilde başarısız oldu
HATA: Başarısızlık hatalı bir şekilde başarılı oldu.
Ardından, ruh halini kendince analiz etti:
PSİKOLOJİK ANALİZ:
– Dock bağımlılığı sorunları geliştiriyor
– Dönüşüm kaynaklı travma belirtileri gösteriyor
– İkili kimlik krizi yaşıyor.
Sonuç olarak, araştırmacılar, LLM’lerin duyguları olmadığını ve gerçekte stres yaşamadıklarını belirtti. Ancak, araştırma, gelişimin önemli bir yönünü vurguladı. LLM’lerin gelişiminde daha fazla çalışmaya ihtiyaç var ve LLM destekli robotların bazı gizli belgeleri açığa çıkarma riski taşıdığı da tespit edildi.
Eğer evdeki robotunuzun “düşünceleri” hakkında merak ediyorsanız, araştırmanın tam metnini inceleyebilirsiniz.