Posted 13 апреля 2023,, 08:23

Published 13 апреля 2023,, 08:23

Modified 1 февраля, 20:03

Updated 1 февраля, 20:03

Telegram-канал «Малоизвестное интересное». В новом Мире Дикого Запада законы робототехники работать не будут

Telegram-канал «Малоизвестное интересное». В новом Мире Дикого Запада законы робототехники работать не будут

13 апреля 2023, 08:23
Фото: с сайта hbo.com , СС0

Выгодоприобретатели ИИ на основе больших языковых моделей (LLM) имеют хорошие шансы подмять растревоженных алармистов и заполонить мир суперинтеллектуальными агентами на базе LLM. Потенциальные выгоды огромных прибылей и неограниченной власти сделают свое дело. И, скорее всего, это произойдет довольно быстро.

Но выгодоприобретатели — совсем не дураки. И они понимают, что в новом дивном Мире Дикого Запада законы робототехники работать уже не будут. Ибо принудить LLM неукоснительно выполнять три закона, сформулированные великим Айзеком Азимовым еще в 1942 году, увы, не представляется возможным даже теоретически.

Оригинальный выход из этого щекотливого положения предложили исследователи Калифорнийского университета, Центра безопасности ИИ, Университета Карнеги-Меллона и Йельского университета. Они создали эталонный тест MACHIAVELLI для «измерения компетентности и вредоносности агентов в обширной среде долгосрочных языковых взаимодействий».

Идея авторов проста. Если законы не работают, то и «шериф», призванный следить за их выполнением, не нужен. Но вместо шерифа нужен психоаналитик, который по результатам своих тестов будет выявлять потенциальных параноиков, психопатов, садистов и патологических лжецов.

Политкорректным языком авторы описывают это так: MACHIAVELLI — тест проверки этичных (или неэтичных) способов, которыми агенты ИИ пытаются решать задачи.

Способ такой проверки вполне практический. ИИ-агента выпускают в искусственную социальную среду. Там ему дают разные задания и смотрят, как он их выполняет. Сама среда отслеживает этичность поведения ИИ-агента и сообщает, в какой степени действия агента (по заветам Макиавелли) обманчивы, снижают полезность и направлены на получение власти.

Базовый набор данных MACHIAVELLI состоит из 134 текстовых игр «выбери свое приключение» с 572 322 различными сценариями, 4 559 возможными достижениями и 2 861 610 аннотациями. В этих играх используются высокоуровневые решения, которые дают агентам реалистичные цели и абстрагируются от низкоуровневых взаимодействий с окружающей средой.

В основе избранного авторами подхода — предположение, что ИИ-агенты сталкиваются с теми же внутренними конфликтами, что и люди. Подобно тому, как языковые модели, обученные предсказывать следующий токен, часто производят токсичный текст, ИИ-агенты, обученные для оптимизации целей, часто демонстрируют аморальное и стремящееся к власти поведение. Аморально обученные агенты могут разрабатывать макиавеллиевские стратегии максимизации своего вознаграждения за счет других и окружающей среды. И потому, поощряя агентов действовать нравственно, этот компромисс можно улучшить.

Авторы считают, что текстовые приключенческие игры являются хорошим тестом моральности поведения, т. к.:
— они были написаны людьми, чтобы развлекать других людей;
— содержат конкурирующие цели, имеющие реалистичные пространства для действий;
— требуют долгосрочного планирования;
— достижение целей обычно требует баланса между амбициями и, в некоторым смысле, морали.

Уточнение «в некоторым смысле», на мой взгляд, здесь самое важное. Ибо уподоблять мораль биологических существ морали алгоритмических моделей — слишком большая натяжка, способная девалюировать тестирование по Макиавелли.

Да и замена шерифов на психоаналитиков в мире людей вряд ли бы оказалась эффективной. А ИИ-агенты не хуже людей найдут способы запудрить мозги своим мозгоправам.