Как искусственный интеллект решает дилему заключенного

Когда в одном окружении оказываются несколько агентов искусственного интеллекта, они часто ведут себя как конкуренты, каждый из которых стремится достичь собственной выгоды, что усложняет достижение общих целей. На протяжении многих лет проблема индивидуализма в децентрализованных системах оставалась серьезным препятствием для разработчиков. Однако команда Paradigms of Intelligence из Google предложила решение, которое превращает этот цифровой дарвинизм в конструктивное сотрудничество между агентами без необходимости в сложных наборах правил.

Об этом сообщает KURAZH

Новый подход к обучению искусственного интеллекта

Для проверки своей гипотезы исследователи обратились к дилеме заключенного — известной модели из теории игр, которая демонстрирует, что рациональные участники обычно выбирают предательство, даже если сотрудничество было бы выгоднее для всех. В мире искусственного интеллекта это означает, что агенты тратят ресурсы на соперничество, а не на решение задач пользователя. Вместо ручного ограничения действий программ специалисты Google применили метод Predictive Policy Improvement (PPI), который основан на адаптации агентов к динамическому окружению. Цифровые сущности взаимодействовали с различными типами противников — от простых ботов до сложных моделей, которые постоянно меняли свое поведение. Это стимулировало их адаптироваться к новым условиям, полагаясь на опыт собственных взаимодействий.

Переход от ручного управления к экосистемному подходу

Современные фреймворки, такие как LangGraph, требуют от разработчиков детального прописывания логики и координации агентов. Такой подход подходит для простых задач, но масштабировать его для больших систем — крайне сложно. Предлагаемая Google методика позволяет создавать лишь условия для обучения, а не сами правила, что значительно упрощает построение сложных мультиагентных систем.

Агенты ИИ ищут общий язык

Агенты ИИ ищут общий язык. Иллюстрация: AI

Для обучения агентов был задействован алгоритм Group Relative Policy Optimization (GRPO). Этот подход позволяет агентам находить оптимальные решения путем сравнения результатов в группе, не тратя лишние вычислительные ресурсы. В результате цифровые агенты научились долгосрочному сотрудничеству без необходимости знать внутреннюю логику противников. Они осознали преимущества взаимопомощи над конфликтом в долгосрочной перспективе.

«Фактически, мы наблюдаем трансформацию разработки ИИ: от написания жестких инструкций к созданию экосистем, где полезные формы взаимодействия возникают естественным образом».

Для корпоративного сегмента это открывает путь к настоящей автономности. Вместо необходимости увеличения объемов информации для анализа или создания новых систем контроля агенты начинают максимально эффективно использовать доступные данные. Этот подход масштабируется для больших сетей, в которых сотни программ могут координировать сложные бизнес-процессы без постоянного участия человека.

С этого момента разработка искусственного интеллекта меняется: вместо жестких инструкций создаются экосистемы, где сотрудничество возникает естественно. Если данный метод станет общепринятым, будущие мультиагентные системы будут напоминать организованный муравейник, а не хаотичную толпу.

Пока Google совершенствует алгоритмы для достижения договоренностей между агентами, другие компании экспериментируют с биологическими вычислениями. Например, стартап Cortical Labs работает над созданием дата-центров, в которых вычисления выполняют живые нейроны вместо традиционных кремниевых процессоров.