Головне

Що означають терміни “Великі Дані” та “Ера великих даних”?

Що означають терміни "Великі Дані" та "Ера великих даних"?
Що означають терміни “Великі Дані” та “Ера великих даних”?
Останнім часом в різних засобах масової інформації все частіше і частіше зустрічається термін “Великі Дані” і пов’язані з ним повідомлення про початок “Ери великих даних”. Зараз ми спробуємо прояснити що ж насправді означають вищезазначені терміни. На даний момент все людство виробляє близько 2.5 квінтильйонів байт інформації в день і це занадто багато для того, що б обробити всю інформацію силами звичайного настільного комп’ютера. Тому пошук корисної інформації в цій величезній горі інформаційного сміття є однією з найбільших проблем, що стоять перед сучасним суспільством.

Починаючи з 1980-х років інформаційна ємність збільшується в два рази за 40 місяців в перерахунку на душу населення земної кулі. В даний час зовсім не важко зібрати і накопичити величезні кількості даних, їх можна брати з будь-яких доступних джерел, із засобів масової інформації, з Інтернету, із квитанцій онлайн-продажів і навіть від зчитувачів RFID-ідентифікаторів. Наприклад, мережа супермаркетів Walmart генерує щодня запису про 1 мільйон продажів, відомий сервіс Twitter генерує в добу 12 терабайт інформації, а експерименти, проведені на Великому адронному колайдері (ВАК) за 2010, стали джерелом 13 петабайт даних. І от саме такі дійсно величезні набори різноманітних даних маються на увазі під універсальним терміном “Великі Дані”.

З “Великими Даними” ніби розібралися, тепер звернемося до проблеми, яку створює саме їхнє існування. Будь-які дані можуть стати корисними лише в тому випадку, якщо ними можна скористатися. Але для великих даних не підходять традиційні методи обробки інформації, для них недостатньо обчислювальних потужностей звичайних комп’ютерів і функцій користувацького програмного забезпечення. Для того, що б проаналізувати величезний потік інформації і відстежити деякі швидкі явища, такі як поява бозона Хіггса або шахрайство на касі супермаркету явно недостатньо можливостей програм MS Access і MS Excel.

Для маніпуляції наборами великих даних, для управління явищем “Великих Даних”, крім місця для їх зберігання і комунікаційних каналів з величезною пропускною здатністю, потрібні аналітичні інструменти нового покоління, що спираються на величезні обчислювальні потужності, в тому числі і на сучасні суперкомп’ютери. Прикладом цьому може служити набір аналітичного програмного забезпечення Apache Hadoop Big Data Platform, який може працювати на кластерах, що складаються з сотень і тисяч найпотужніших серверів, що реалізують модель широкомасштабної паралельної обробки та аналізу баз даних.

Поява суперкомп’ютерів і масштабних обчислювальних систем, цілодобово обробляють величезні масиви інформації, роблячи її доступною сприйняттю і розумінню людьми, мається на увазі під початком “ери великих даних”. І більшість людей самі не підозрюючи цього практично щодня користуються результатами настання цієї ери, набираючи фразу в рядку пошукової системи, розглядаючи знімки Землі в Google Earth і користуючись іншими численними благами, що надаються ерою цифрових технологій.

Back to top button