Время огромных нейросетей пришло, считает Google

14 декабря 2021 г., 16:26

Software

В последних результатах эталонных тестов производительности машинного обучения, опубликованных в конце ноября отраслевым консорциумом MLCommons, фигурирует представленная инженерами Google огромная версия программы естественного языка BERT, равную которой не использовал ни один другой поставщик.

В данный релиз не вошли результаты тестирования быстродействия выдачи прогнозов обученными нейросетями (так называемые inference), их MLCommons выпускает отдельно.

Состязания с использованием тестов MLPerf уже традиционно проходят в двух категориях: «закрытой» (Closed), где большинство поставщиков соревнуются на стандартных, хорошо зарекомендовавших себя сетях, таких как ResNet-50; и «открытой» (Open), позволяющей вендорам опробовать нестандартные подходы.

Участвовавшая в Open-категории, наряду с Graphcore и Samsung, Google, показала в ней компьютер с 2048 чипами-ускорителями TPU version 4. Эта система, кстати, доступная как услуга в Google Cloud, потратила на обучение крупнейшей в истории программы BERT около 19 часов.

Гигантская нейронная сеть содержит 481 миллиард параметров, что более чем на три порядка превышает стандартную версию Bert, известную как BERT Large и насчитывающую «всего» 340 миллионов параметров.

«Мы всегда заинтересованы в том, чтобы наши конкурсные предложения в MLPerf отвечали нашим внутренними нуждам и потребностями индустрии машинного обучения, – отметил Ааруш Селван (Aarush Selvan), курирующий инфраструктуру машинного обучения в Google. – Обучение больших моделей с десятками или сотнями миллиардов параметров, и даже с триллионом параметров и выше, становится все более важным как для Google …, так и для наших облачных клиентов».

Подчёркивая растущее значение крупномасштабных моделей, Google в этом году игнорировала участие в стандартных тестах, где используются испытанные, но несколько устаревшие программы. По мнению компании, MLCommons следует подумать о включении в стандартную категорию состязания MLPerf более крупных моделей.

«Бросить 4000 чипов, чтобы натренировать BERT всего за несколько секунд, это суперкруто, – заметил Сельван, имея в виду меньшую версию, BERT Large в категории Closed. – В реальной жизни вы никогда не будете использовать столько чипов для обучения такой маленькой модели».

Google добилась от гигантской модели BERT эффективности работы 63%, определяемой как количество операций с плавающей запятой в секунду, относительно теоретической производительности. По словам Сельвана, это лучше, чем следующий по величине результат в отрасли (52%): он был показан Nvidia для языковой модели Megatron-Turing, разработанной совместно с Microsoft.

Исполнительный директор MLCommons, Дэвид Кантер (David Kanter), сказал, что решение о включении крупных моделей должно быть принято членами консорциума коллегиально. Однако он отметил, что использование нейронных сетей умеренных размеров делает соревнование доступным для более широкого круга участников.

«В принципе мы могли бы сделать обучение GPT-3 эталоном MLPerf, – добавил он, имея в виду языковую модель со 175 млрд параметров, представленную OpenAI в прошлом году. – Проблема в том, что тренировка GPT-3 довольно затратна по вычислениям. Это десятки миллионов долларов».

Напротив, стандартный набор MLPerf любой исследователь может свободно позаимствовать, чтобы самому воспроизвести тесты. Таким образом, это очень ценный инженерный ресурс для всего сообщества, который помогает продвигать отрасль ИИ вперёд.

Google не планирует публиковать новую модель BERT. Селван, охарактеризовав её как «что-то, что мы сделали только для MLPerf». Данная программа аналогична той, что была описана в исследовании Google в начале этого года, посвященном нейронным сетям с высоким уровнем параллелизма.

Google также подчёркивает, что несмотря на новизну BERT с 481 млрд параметров, она тесно связана с практичными задачами, поскольку построена на реально используемой многослойной архитектуре Transformer.

Как от меньших участников MLPerf, от гигантской модели BERT требовалась определённая точность в предсказаниях – выше 72,2%. Однако, для удовлетворения этому требованию программе Google понадобилось меньшее количество выборок текстовых данных. В закрытой категории программы использовали почти полмиллиарда выборок, по 128 на каждую последовательность. Программа Google достигла точности прогнозов 75% с использованием всего около 20 млн выборок, но при длине последовательности 512 токенов.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365