Elon Musk tarafından Temmuz 2023 tarihinde hayata geçirilen xAI, gerçekten akıllı sistemlerin geliştirilmesinde ileriye doğru büyük bir adımı temsil eden Grok-1.5 Vision (Grok-1.5V) adlı yeni multimodal modelini duyurdu. Şirket, Grok-1.5V’nin metin anlamanın ötesine geçerek görsel yetenekleri entegre ederek belgeleri, diyagramları, çizelgeleri, fotoğrafları ve daha fazlasını anlamasına olanak sağladığını söylüyor.
xAI’ye göre Grok-1.5V, önemli kriterlerde önde gelen rakiplerinden daha iyi performans gösteriyor. Buna göre model, sorularla eşleştirilen 700’den fazla gerçek dünya görüntüsünün değerlendirilmesi olan xAI’ın RealWorldQA veri kümesinde mükemmel bir performans sergiledi. Bu veri kümesi, yapay zekanın karmaşık görsel senaryoları anlama yeteneğini değerlendiriyor ve genel zekaya doğru ilerlemeyi ölçüyor.
Grok-1.5V’nin çok yönlü algısı, bir çocuğun yaptığı çizimin uyku hikayesine dönüştürülmesi gibi örneklerle ortaya konuldu. Ayrıca model internet meme’leri açıkladı, tabloları CSV formatına dönüştürdü ve yalnızca görsellere dayanarak ahşap zemin kaplamasıyla ilgili sorunları teşhis etti. xAI, bu kadar çeşitli görevlerin Grok-1.5V’nin çok çeşitli uygulamalara yönelik potansiyelini gösterdiğine inanıyor.
Önümüzdeki aylarda şirket araştırmalarını birkaç önemli alana odaklamayı planlıyor. xAI yakında Grok-1.5V’nin ilk test uzmanlarını geri bildirim sağlamak ve multimodal muhakemesini geliştirmeye yardımcı olacak şekilde arayacak. Grok beta sürümüne erişim, başlangıçta ek avantajlar ve destek alan X’in Premium+ aboneleriyle sınırlı olacak.