Команда Qwen китайської компанії Alibaba анонсувала випуск нової серії AI моделей Qwen2.5-VL, які здатні виконувати широкий спектр завдань, пов’язаних з аналізом тексту та зображень.
Про це розповідає KURAZH
Функціональні можливості нової моделі
Ці моделі мають змогу обробляти файли, аналізувати відео, підраховувати об’єкти на зображеннях, а також здійснювати управління комп’ютером. Ці функції нагадують моделі, розробленій компанією OpenAI.
Згідно з даними тестування, модель Qwen2.5-VL перевершує такі відомі рішення, як GPT-4 від OpenAI, Claude 3.5 від Anthropic та Gemini 2.0 Flash від Google. Вона демонструє кращі результати у таких сферах, як розуміння відео, математичні розрахунки, аналіз документів та відповіді на запитання. Qwen2.5-VL здатна також аналізувати графіки та діаграми, витягувати дані зі сканів рахунків і форм, а також “розуміти” відео тривалістю кілька годин.
Взаємодія з програмним забезпеченням
Однією з цікавих особливостей Qwen2.5-VL є її можливість взаємодіяти з програмним забезпеченням на персональних комп’ютерах та мобільних пристроях. У відео, опублікованому на платформі X, демонструється, як модель запускає додаток Booking.com на Android та бронює авіаквиток з Чунціна до Пекіна. Однак під час тестування на Linux-десктопі модель виявилася менш ефективною, обмежуючись лише перемиканням вкладок.
Моделі Qwen2.5-VL мають певні обмеження у виборі тем, що обговорюються, зокрема в Qwen Chat, через контроль китайського інтернет-регулятора, який вимагає дотримання “основних соціалістичних цінностей”.
Моделі Qwen2.5-VL доступні для тестування в додатку Qwen Chat та на платформі Hugging Face. Зокрема, модель Qwen2.5-VL-72B вимагає спеціальної ліцензії для комерційного використання, яка необхідна компаніям з більш ніж 100 мільйонами активних користувачів на місяць.