Компания Маска по искусственному интеллекту xAI объявила о выпуске своей первой мультимодальной модели искусственного интеллекта Grok-1.5V. Помимо мощных возможностей обработки текста, Grok также может обрабатывать различную визуальную информацию, включая документы, диаграммы, снимки экрана, фотографии и т. д. В тестах производительности Grok-1,5V в различных областях производительность сравнима с существующими передовыми мультимодальными моделями. Особенно в новом эталонном тесте RealWorldQA, запущенном xAI, Грок превзошел аналогичные модели по возможностям реального пространственного понимания. Набор данных RealWorldQA содержит более 700 изображений и предназначен для оценки базового понимания физического мира мультимодальными моделями. Grok-1.5 скоро будет доступен ранним тестерам и существующим пользователям.
Все комментарии