Як зберігати петабайти даних?

26 март, 2024 - 16:44Андрій Тищенко

Останнім часом почастішали запити «як зберeгти петабайт даних (і не розоритися при цьому)».

На це питання немає простої відповіді без прояснень обставин: якi типи даних яких додаткiв треба зберiгати, наскільки інтенсивними є читання/запис, у яких пропорціях, потрібен безперервний доступ чи ні, які очікування подальшого масштабування?

У зовнішньому світі петабайти даних генеруються сервісами потокового відео, платформами соціальних медіа, науково-дослідними установами, фінансовими організаціямі та медицинськими закладами. У наших реаліях значні обсяги даних зберігають (окрім державних, банківских, телеком-установ) хіба що творці медійного продукту та власники систем відеоспостереження. Недорозвиненість ринку породжує крайнощі: від «купити Netapp» до «побудувати сховище Ceph з кори та гілок». Якби ж завдання вирішували продукти вендорів, залізні чи програмні.

Надійним та водночас економічним рішенням для зберігання петабайтів даних вважаються хмари. Постачальники хмарних послуг пропонують масштабовані та гнучкі варіанти обробки величезних обсягів даних, з високим рівнем доступності, резервуванням і гарантіями збереження. Пригадується яскрава подія три роки тому, коли у дата-центрі великого європейського оператора OVH у Страсбурзі сталася пожежа. Тоді клієнти стали свідками (жертвами) рідкісного явища перегону даних у хмару методом випаровування.

Але не зовнішні ризики є основним стримуючим фактором хмарного зберігання даних. Передача об’ємних даних через мережі потребує високошвидкісних оптоволоконних з’єднань. Петабайти можна качати місяцями. Не випадково у зовнішньому світі існують послуги AWS Snowball та Azure Data Box Heavy фізичного переміщення даних у хмари вантажівками.

Написане з другого приводу «Всі кажуть: правди на землі нема, та правди й вище теж нема» слід сприймати як приклад критичної думки у виборі між власним господарством та хмарою. Універсальних рішень не буває, що б там не говорили адепти брендів чи «хмарочоси». Без аналізу навантажень, галузевої експертизи, співставлення цілей та засобів проекти об'ємних сховищ не починають. Навіть у програмно-визначених сховищах заданої функціональності вибор фізичної бази, організації дискового простору та його масштабування, має вирішальний вплив на результат (і бюджет).

Порада тільки одна: шукати не продукт чи постачальника, а притомного консультанта.