TheInformation повідомляє, що OpenAI веде розробку мультимодальних функцій до GPT-4, під загальною назвою GPT-Vision, які будуть аналогом моделі Gemini від Google. Мультимодальність забезпечує можливість моделі працювати з різними видами інформації, тобто як у текстовому, так і у візуальному форматі.
Стверджується, що наступне покоління GPT під назвою Gobi від самого початку розробляється як мультимодальна модель.
Усе це добре, але це означає, що у нашого милого AI з'явиться слух і зір, нехай і в зародковому варіанті. Ви вже уявили перспективи?
OpenAI вчить ChatGPT обробляти візуальну та аудіо інформацію
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
0 |