Posted 14 июня 2023,, 17:00

Published 14 июня 2023,, 17:00

Modified 1 февраля, 20:13

Updated 1 февраля, 20:13

Telegram-канал «Малоизвестное интересное». Генеративный ИИ завалит интернет мусором

Telegram-канал «Малоизвестное интересное». Генеративный ИИ завалит интернет мусором

14 июня 2023, 17:00
Фото: с сайта Image by rawpixel.com on Freepik

Всего 6 месяцев прошло с начала эпохи генеративного ИИ, когда ChatGPT за считаные дни покорил весь мир.

Всего 6 месяцев потребовалось, чтобы до половины сотрудников некоторых ведущих мировых компаний стали использовать этот тип технологий в своих рабочих процессах, а сотни компаний стали предлагать все новые продукты со встроенным генеративным ИИ.

И всего 6 месяцев потребовалось, чтобы понять, в какую пропасть деградации интеллекта может привести расцвет генеративного ИИ на Земле.

Об этом предупреждает Росс Андерсон — как гласит его номинация в члены Королевского общества, «пионер и мировой лидер в области инженерии безопасности». Андерсен — один из лучших специалистов в мире по обнаружению слабостей в системах безопасности и алгоритмах. Он член Королевской инженерной академии и профессор персональной кафедры безопасности и компьютерной лаборатории Кембриджского университета, а также один из самых известных отраслевых консультантов в области инфобезопасности. Его работы заложили основы построения моделей угроз для широкого круга приложений, от банковского дела до здравоохранения.

И вот теперь Росс Андерсон предупреждает о новой, уже глобальной угрозе для всего человечества — коллапсе больших языковых моделей (LLM).

До 2023 большая часть текстов в интернете была написана людьми. И эти тексты использовались для обучения LLM, превращающихся в основной инструмент редактирования и порождения новых текстов.

Теперь все больше и больше текста будет писаться большими языковыми моделями.

Куда все это ведет? Что произойдет с GPT-N, когда LLM внесут значительную часть текстов в интернет? И речь не только про тексты. Если вы обучаете музыкальную модель Моцарту, вы можете ожидать, что результат будет немного похож на Моцарта, но без блеска — назовем его «Сальери». И если потом «Сальери» обучит следующее поколение и т. д., то как будет звучать пятое или шестое поколение?

Помните комедию «Множественность» с Майклом Китоном в главной роли, в которой скромный человек клонирует себя, а затем клонирует клонов, каждое поколение которых ведет к экспоненциальному снижению уровня интеллекта и увеличению глупости клона? Так вот с LLM будет происходить то же самое. Использование для обучения модели контента, сгенерированного моделью, вызывает необратимые дефекты. Хвосты исходного распределения контента исчезают. В течение нескольких поколений текст становится мусором, поскольку распределения Гаусса сходятся и могут даже стать дельта-функциями. Более поздние поколения начинают производить образцы, которые никогда не были бы произведены оригинальной моделью, т. е. они начинают неправильно воспринимать реальность, основываясь на ошибках, внесенных их предками.

И это называется «коллапс модели», в результате которого интернет все более будет забиваться чушью, а люди, которые, наряду с LLM, будут этой чушью информационно напитываться, будут неумолимо глупеть.

Но есть и хорошая новость. Коллапса моделей можно попытаться избежать…