Alibaba представила новую AI модель Qwen2.5-VL для анализа текста и изображений

|
Alibaba представила новую AI модель Qwen2.5-VL для анализа текста и изображений

Команда Qwen китайской компании Alibaba анонсировала выпуск новой серии AI моделей Qwen2.5-VL, способных выполнять широкий спектр задач, связанных с анализом текста и изображений.

Об этом сообщает KURAZH

Функциональные возможности новой модели

Эти модели могут обрабатывать файлы, анализировать видео, подсчитывать объекты на изображениях, а также управлять компьютером. Эти функции напоминают модели, разработанные компанией OpenAI.

Согласно данным тестирования, модель Qwen2.5-VL превосходит такие известные решения как GPT-4 от OpenAI, Claude 3.5 от Anthropic и Gemini 2.0 Flash от Google. Она показывает лучшие результаты в таких областях, как понимание видео, математические расчеты, анализ документов и ответы на вопросы. Qwen2.5-VL способна также анализировать графики и диаграммы, извлекать данные из сканов счетов и форм, а также "понимать" видео длительностью несколько часов.

Взаимодействие с программным обеспечением

Одной из интересных особенностей Qwen2.5-VL является возможность взаимодействовать с программным обеспечением на персональных компьютерах и мобильных устройствах. В видео, опубликованном на платформе X, демонстрируется, как модель запускает приложение Booking.com на Android и бронирует авиабилет из Чунцина в Пекин. Однако при тестировании на Linux-десктопе модель оказалась менее эффективной, ограничиваясь лишь переключением вкладок.

Модели Qwen2.5-VL имеют определенные ограничения в выборе обсуждаемых тем, в частности в Qwen Chat, через контроль китайского интернет-регулятора, который требует соблюдения "основных социалистических ценностей".

Модели Qwen2.5-VL доступны для тестирования в приложении Qwen Chat и на платформе Hugging Face. В частности, модель Qwen2.5-VL-72B требует специальной лицензии для коммерческого использования, которая необходима компаниям с более 100 миллионами активных пользователей в месяц.