Alibaba представила нову AI модель Qwen2.5-VL для аналізу тексту та зображень

Команда Qwen китайської компанії Alibaba анонсувала випуск нової серії AI моделей Qwen2.5-VL, які здатні виконувати широкий спектр завдань, пов’язаних з аналізом тексту та зображень.

Про це розповідає KURAZH

Функціональні можливості нової моделі

Ці моделі мають змогу обробляти файли, аналізувати відео, підраховувати об’єкти на зображеннях, а також здійснювати управління комп’ютером. Ці функції нагадують моделі, розробленій компанією OpenAI.

Згідно з даними тестування, модель Qwen2.5-VL перевершує такі відомі рішення, як GPT-4 від OpenAI, Claude 3.5 від Anthropic та Gemini 2.0 Flash від Google. Вона демонструє кращі результати у таких сферах, як розуміння відео, математичні розрахунки, аналіз документів та відповіді на запитання. Qwen2.5-VL здатна також аналізувати графіки та діаграми, витягувати дані зі сканів рахунків і форм, а також “розуміти” відео тривалістю кілька годин.

Взаємодія з програмним забезпеченням

Однією з цікавих особливостей Qwen2.5-VL є її можливість взаємодіяти з програмним забезпеченням на персональних комп’ютерах та мобільних пристроях. У відео, опублікованому на платформі X, демонструється, як модель запускає додаток Booking.com на Android та бронює авіаквиток з Чунціна до Пекіна. Однак під час тестування на Linux-десктопі модель виявилася менш ефективною, обмежуючись лише перемиканням вкладок.

Моделі Qwen2.5-VL мають певні обмеження у виборі тем, що обговорюються, зокрема в Qwen Chat, через контроль китайського інтернет-регулятора, який вимагає дотримання “основних соціалістичних цінностей”.

Моделі Qwen2.5-VL доступні для тестування в додатку Qwen Chat та на платформі Hugging Face. Зокрема, модель Qwen2.5-VL-72B вимагає спеціальної ліцензії для комерційного використання, яка необхідна компаніям з більш ніж 100 мільйонами активних користувачів на місяць.