Gopher — новая система искусственного интеллекта от DeepMind, оперирующая 280 миллиардами параметров
Генерация текстов на естественном языке это задача, для которой используются так называемые большие языковые модели (large language model, LLM). Результаты работы таких моделей применяются сейчас на практике в самых различных областях, начиная от поиска Google до фэнтезийных онлайн-игр. Однако работа LLM-моделей еще далека от совершенства, при некоторых условиях они «сходят с ума» и начинают выдавать тексты сексисткого, расистского содержания, тексты с прерывающимися цепочками логических рассуждений и т.п. Некоторые из специалистов считают, что эти слабые места могут быть усилены путем добавления вычислительной мощности, увеличения масштабов самой модели и количества исходных данных. Но так ли это на самом деле? Или мы уже достигли пределов возможностей данной технологии?
Поиском ответов на прозвучавшие выше вопросы занимаются специалисты DeepMind, подразделения компании Alphabet, занимающегося проблемами искусственного интеллекта. Для этого была построена большая языковая модель под названием Gopher, количество операционных параметров которой равно 280 миллиардам. С этой точки зрения модель Gopher превосходит модель OpenAI GPT-3 (175 миллиардов параметров), но проигрывает модели Megatron (530 миллиардов параметров), разработанной совместными усилиями Microsoft и Nvidia.
В области искусственного интеллекта бытует мнение, что модели большей сложности могут обеспечить лучшую производительность и качество результатов. Специалисты DeepMind подтвердили это при помощи модели Gopher на наиболее распространенных задачах, таких как проверки фактов, анализ мнений и резюмирование. Однако было замечено, что некоторые проблемы, являющиеся врожденными в языковых моделях, для их исправления нуждаются в чем-то большем, нежели простое увеличение сложности, вычислительной мощности и количества данных.
«Мы видим, что модель может потерпеть неудачу, двигаясь к моменту краха множеством различных путей» — пишут исследователи, — «Это происходит потому, что у самой модели отсутствует хорошее понимание того, что она читает и вырабатывает. Более того, в некоторых случаях модели имеют тенденцию скатываться к распространенных стереотипам и выдают весьма хорошо замаскированную правдоподобную дезинформацию».
К озвученным выше выводам специалисты DeepMind пришли после того, как они изменяли сложность модели Gopher и проводили порядка 150 тестов на различных языковых задачах. При этом было отмечено, что качество работы увеличивалось с ростом сложности модели, и самые качественные результаты (около 80 процентов прохождения тестов) были получены при помощи модели с максимально возможным количеством параметров.
Кроме проверки качества работы LLM-моделей, исследователи в своей работе рассмотрели дополнительные проблемы, с которыми можно будет столкнуться при начале практического использования этих моделей. Были рассмотрены варианты генерации «токсичного» языка, хорошо скрытой дезинформации и другие вещи, которые могут быть использованы для создания спама и пропаганды, к примеру. Эти аспекты скоро обретут весьма важное значение, ведь различные системы искусственного интеллекта уже сейчас начинают использоваться в роли чат-ботов, агентов по продажам и т.п.
«Несмотря на не очень утешительные результаты наших исследований мы считаем, что использованные тестовые наборы данных и тестовые задания просто не соответствуют сложности реального мира» — пишут исследователи, — «И единственным способом проверки качества таких систем является проверка их в реальности, в общении с реальными людьми. С учетом темпа развития современных технологий мы надеемся получить результаты проверок моделей реальностью уже в самом ближайшем времени».