Posted 27 апреля, 17:00

Published 27 апреля, 17:00

Modified 27 апреля, 19:15

Updated 27 апреля, 19:15

Сергей Карелов: Кто там? Сверхразум

Сергей Карелов: Кто там? Сверхразум

27 апреля 2024, 17:00
Фото: CC0 Public Domain
Для обучения ИИ теперь можно обойтись без людей.

Трудно переоценить прорыв, достигнутый китайцами в Tencent AI Lab. Без преувеличения можно сказать, что настал «момент AlphaGo Zero» для LLM. И это значит, что AGI уже совсем близко — практически за дверью.

Первый настоящий сверхразум был создан в 2017 году компанией DeepMind. Это ИИ-система AlphaGo Zero, достигшая сверхчеловеческого (недостижимого для людей) класса игры в шахматы, играя сама с собой. Ключевым фактором успеха было то, что при обучении AlphaGo Zero не использовались наборы данных, полученные от экспертов-людей. Именно игра с собой без какого-либо участия людей и позволила ИИ-системе больше не быть ограниченной пределами человеческих знаний. И она вышла за эти пределы, оставив человечество далеко позади.

Если это произошло еще в 2017-м, почему же мы не говорим, что сверхразум уже достигнут? Да потому, что AlphaGo Zero — это специализированный разум, достигший сверхчеловеческого уровня лишь в шахматах (а потом в Го и еще кое в чем). А настоящий сверхразум (в современном понимании) должен уметь если не все, то очень многое.

Появившиеся 2 года назад большие языковые модели (LLM) в этом смысле куда ближе к сверхразуму. Они могут очень-очень много: писать романы и картины, сдавать экзамены и анализировать научные гипотезы, общаться с людьми практически на равных… Но! Превосходить людей в чем-либо, кроме бесконечного (по нашим меркам) объема знаний, LLM пока не могут. И потому они еще далеко не сверхразум (ведь не считаем же мы сверхразумом Библиотеку Ленина, даже если к ней приделан автоматизированный поиск в ее фондах).

Причина, мешающая LLM стать сверхразумом, в том, что, обучаясь на человеческих данных, они ограничены пределами человеческих знаний.

И вот прорыв — исследователи Tencent AI Lab предложили и опробовали новый способ обучения LLM. Он называется «Самостоятельная состязательная языковая игра». Его суть в том, что обучение модели идет без полученных от людей данных. Вместо этого две копии LLM соревнуются между собой, играя в языковую игру под названием «Состязательное табу», придуманную китайцами для обучения ИИ еще в 2019 году.

Первые экспериментальные результаты впечатляют. Копии LLM, играя между собой, выходят на все более высокий уровень. На графике ниже показаны результаты игр в «Состязательное табу» против GPT-4 двух не самых сильных и существенно меньших моделей после первой, второй и третьей серии их обучения.

Как видите, класс существенно растет.

И кто знает, что будет, когда число самообучающих серий станет не 3, а 3 тысячи?

Сергей Карелов, IT-эксперт, автор Telegram-канала «Малоизвестное интересное»