Науковці з Массачусетського технологічного інституту (MIT) представили нове дослідження, яке докорінно змінює уявлення про успіх великих мовних моделей та систем штучного інтелекту. Вони дійшли висновку, що прогрес у цій сфері значною мірою залежить не від унікальних архітектур чи складних алгоритмів, а передусім від обсягів обчислювальних ресурсів і кількості доступного обладнання.
Про це розповідає KURAZH
Роль обчислень у розвитку штучного інтелекту
Дослідники MIT проаналізували 809 мовних моделей, створених у період з жовтня 2022 до березня 2025 року. Виявилося, що приблизно 80–90% досягнень у сфері штучного інтелекту забезпечуються саме масштабом обчислювальних потужностей. Для підвищення інтелектуальних можливостей моделей розробникам здебільшого потрібно збільшувати кількість відеокарт NVIDIA і створювати великі дата-центри.
Протягом останніх трьох років споживання обчислювальних ресурсів для навчання провідних моделей зросло у 5000 разів. Такий стрімкий ріст пояснює, чому вихід на передові позиції у сфері ШІ стає дедалі дорожчим і складнішим для стартапів, які не мають значних інвестицій. Фахівці MIT FutureTech визначили чотири основні чинники, що впливають на розвиток індустрії: обчислювальні ресурси, загальні алгоритмічні досягнення, фірмовий інженерінг і особливості архітектури моделей.
Обчислення проти інтелекту: що насправді визначає успіх великих мовних моделей. Ілюстрація: AI
Фірмові рішення і ефективність
Частка унікальних інженерних рішень, які впроваджують окремі компанії, становить лише 14–18% усього прогресу. Це свідчить про те, що навіть найталановитіші програмісти не здатні компенсувати нестачу сучасної обчислювальної інфраструктури. Водночас загальні алгоритмічні вдосконалення, які доступні для всіх учасників ринку, допомогли підвищити ефективність навчання моделей у 7,5 раза. Особливо це відчутно щодо невеликих моделей, які стають дедалі потужнішими без необхідності витрачати величезні бюджети.
“Близько 80–90% прогресу, який ми спостерігаємо на передньому краї штучного інтелекту, забезпечується виключно масштабом обчислень. Простіше кажучи, якщо ви хочете розумніший ШІ, вам просто потрібно більше відеокарт NVIDIA та величезні дата-центри”.
Цікаво, що різниця в ефективності між окремими командами розробників є суттєвою: деякі здатні досягати аналогічних результатів, використовуючи у 61 раз менше ресурсів, ніж конкуренти. Це свідчить про важливість оптимізації, але водночас підкреслює: на сьогодні саме доступ до сучасних дата-центрів визначає успіх у змаганні за лідерство у сфері штучного інтелекту.
Поки найбільші компанії вкладають значні кошти у масштабування обчислень, окремі розробники шукають альтернативні підходи та локальні рішення. Зокрема, приклади OpenClaw та китайських розробок демонструють можливість створення ефективних моделей без опори на глобальні інфраструктури.