IBM нарощує можливості свого AI-суперкомп'ютера в хмарі Vela

28 декабря 2023 г., 13:35

Платформа Vela була запущена IBM близько року тому. За повідомленням компанії, за час, що минув, було проведено масштабну модернізацію мережі Vela, яка дає змогу ефективно масштабувати навчання окремих робочих навантажень із використанням до тисячі графічних процесорів на одне завдання. Основними технологіями, які були впроваджені в Vela, стали RoCE (RDMA over Converged Ethernet) і GDR (GPU-direct RDMA).

Віддалений прямий доступ до пам'яті (RDMA) дає змогу одному процесору отримати доступ до пам'яті іншого процесора без участі операційних систем обох комп'ютерів. Це дозволяє значно прискорити обмін даними між процесорами шляхом усунення якомога більшої кількості проміжних процесів. GPU-direct RDMA дає змогу графічним процесорам в одній системі отримувати доступ до пам'яті графічних процесорів в іншій системі, використовуючи мережеві карти, що проходять через мережу Ethernet. Увімкнувши GPU-direct RDMA в мережу Ethernet у Vela, було збільшено пропускну спроможність мережі у 2-4 рази та скорочено затримки в мережі в 6-10 разів.
IBM нарощує можливості свого AI-суперкомп'ютера в хмарі Vela
Заявлено також про можливість майже лінійно масштабувати робочі навантаження до набагато більших моделей, ніж це було можливо раніше. Це містить навчання моделі Granite з 20 мільярдами параметрів, про яку нещодавно оголосили, і яка є ключовим інструментом сервісу watsonx Code Assistant for Z. Робота над оновленням RoCE і GDR велася протягом декількох років. Вона зажадала одночасного внесення змін і удосконалень практично в усі частини хмарного стека - від прошивки системи до операційної системи хоста, віртуалізації, мережевої підкладки та оверлея.

Хоча Vela була розроблена з можливістю розширення, команда хотіла не просто додати у Vela більше графічних процесорів, а й зробити це з мінімальними витратами місця і ресурсів. Зокрема, було поставлено завдання подвоїти щільність серверних стійок, що дало б змогу приблизно подвоїти продуктивність без збільшення площі та необхідного мережевого обладнання.
IBM нарощує можливості свого AI-суперкомп'ютера в хмарі Vela
Проаналізувавши моделі робочих навантажень AI, експерти IBM дійшли висновку, що можна продовжувати нарощувати потужності в рамках вже наявних ресурсів електроживлення та охолодження без шкоди для продуктивності. Потім спільно з партнерами було розроблено високо оптимізоване рішення щодо обмеження потужності. Це дало змогу Vela, по суті, "перерозподіляти" кількість енергії, доступну для стійки, безпечно. Потім було розроблено систему тестування для всіх відповідних компонентів, щоб переконатися, що після розширення все працюватиме безпечно, без будь-якого негативного впливу на систему або робочі навантаження, які повинні були ефективно працювати на Vela. У результаті Vela тепер складається з удвічі більшої кількості графічних процесорів, ніж до модернізації.

Команда, яка створила Vela, також вивчила способи підвищення ефективності роботи системи. Через свою складність сервери AI мають вищий відсоток відмов, ніж багато традиційних хмарних систем. Ба більше, вони виходять з ладу несподіваним чином, що іноді важко виявляється. А коли вузли або навіть окремі GPU виходять з ладу або деградують, це може вплинути на продуктивність усього завдання, яке виконують на сотнях або тисячах таких вузлів. Тому автоматизація, яка виявляє і знаходить подібні проблеми та видає попередження якомога швидше, дуже важлива для підтримки продуктивності середовища.

Цього року команди IBM вдосконалили автоматизацію в IBM Cloud, скоротивши час, необхідний для виявлення і розуміння подібних апаратних збоїв і деградації Vela, удвічі. Тепер сервери можна повернути у виробничий парк набагато швидше, ніж раніше. Уроки, витягнуті з управління таким складним середовищем, були поширені ширше, щоб поліпшити роботу всього іншого середовища віртуальної приватної хмари (VPC) IBM Cloud.

Зазначається, що і до цих оновлень Vela вже була потужною платформою, яка прискорила запуск і розгортання watsonx.ai по всьому світу, а також розвиток основної базової платформи OpenShift AI. А завдяки останнім удосконаленням інфраструктури Vela вже готуються дедалі потужніші моделі, які допоможуть розв'язати деякі з найнагальніших бізнес-завдань, що постають перед клієнтами.

Раніше цього року IBM оголосила про доступність додаткових пропозицій GPU в IBM Cloud, вивівши на ринок інноваційну інфраструктуру GPU, призначену для навчання, налаштування і виведення базових моделей для корпоративних робочих навантажень. А з появою нових технологій IBM для інфраструктури AI, як-от чип IBM AIU, найближчими роками стане можливим багато іншого.