Microsoft випустила компактну АІ-модель Pi-3 Mini з відкритим вихідним кодом

24 апреля 2024 г., 14:55

Дослідники корпорації Microsoft виклали у відкритий доступ Pi-3 Mini - мовну модель з 3,8 мільярдами параметрів. Як зазначається, вона може перевершити нейронні мережі, що більш ніж у 10 разів перевищують її за розміром.

Компанія заявляє, що Pi-3 Mini досить компактна, щоб працювати на iPhone 2022 року. На противагу цьому, найсучасніші великі мовні моделі на ринку часто занадто складні, щоб поміститися навіть на відеокарті високого класу для центрів обробки даних.

Pi-3 Mini базується на популярному дизайні мовної моделі, відомому як архітектура "Трансформер, що працює лише з декодером". Трансформер - це тип нейронної мережі, яка оцінює контекст слова, намагаючись визначити його значення. Зазвичай такі моделі виконують завдання, аналізуючи текст до і після слова, про яке йде мова.

Трансформер, що працює лише з декодером, - це варіація архітектури, яка використовує менше контекстної інформації для прийняття рішень. Замість того, щоб оцінювати текст до і після слова, він аналізує лише фразу, яка слідує за цим словом. Моделі, що використовують лише декодер, часто краще справляються із завданнями генерації тексту, ніж стандартні моделі трансформерів, і потребують менше апаратного забезпечення для запуску.

Дослідники Microsoft створили Pi-3 Mini на основі дизайну, схожого на Llama 2, популярну серію LLM, розроблену Meta Platforms Inc. Дослідники повторно використали токенізатор Llama 2, компонент, який переводить текст у форму, зрозумілу для моделей. Подібний дизайн Pi-3 Mini дозволяє використовувати його разом з інструментами з відкритим вихідним кодом, розробленими для Llama 2.

Але причина, чому Pi-3 Mini може перевершити значно більші LLM, полягає не в його архітектурі. Скоріше, "інновація повністю полягає в нашому наборі даних для навчання", - стверджують дослідники Microsoft, які розробили модель, детально описану в науковій статті.

Набір даних є розширеною версією інформаційного сховища, яке компанія використовувала для побудови Pi-2, малої мовної моделі попереднього покоління. Набір даних Pi-3 Mini складається з 33 мільйонів токенів інформації.

Зазначається, що Pi-3 Mini навчався на "сильно відфільтрованій" інформації, отриманій з Інтернету. За словами представників Microsoft, дослідники включали лише ту інформацію, яка могла бути використана для покращення здатності моделі до міркувань. Вони видалили всі інші елементи з набору даних, в тому числі веб-сторінки, які містили деякі корисні знання, але не були достатніми для максимізації ефективності процесу навчання АІ.

Microsoft оцінила можливості Pi-3 Mini, порівнявши її з двома більшими мовними моделями з відкритим вихідним кодом. Один з бенчмарків включав версію Llama 2 від Meta з 70 мільярдами параметрів. За даними Microsoft, Pi-3 Mini набрала більше балів, ніж Llama 2, в тесті оцінки нейронних мереж MMLU, який включає 16 000 запитань з десятків тем.

Під час тестування дослідники Microsoft змогли запустити модель на iPhone 14.