big data tutorial beginners what is big data
Овај водич објашњава све о основама великих података. Водич укључује предности, изазове, технологије и алате заједно са апликацијама великих података:
шта је план испитивања у ка
У овом дигиталном свету са технолошким напретком свакодневно размењујемо велике количине података као у Терабајти или Петабајт .
Ако свакодневно размењујемо ту количину података, онда их такође морамо одржавати и негде ускладиштити. Решење за руковање великим количинама података велике брзине и различите разноликости је Велики података.
Може да обрађује сложене податке који долазе из више извора, попут различитих база података, веб локација, виџета итд. Такође, може да повезује и подудара податке који долазе из различитих извора. Заиста пружа бржи приступ подацима ( На пример, друштвени медији).
Списак лекција у овој серији великих података
Туториал # 1: Шта су велики подаци? (Овај водич)
Туториал # 2: Шта је Хадооп? Водич за Апацхе Хадооп за почетнике
Туториал # 3: Хадооп ХДФС - Хадооп дистрибуирани систем датотека
Туториал # 4: Водич за Хадооп архитектуру и ХДФС команде
Водич бр. 5: Хадооп МапРедуце Водич са примерима | Шта је МапРедуце?
Лекција # 6: Водич за почетнике Апацхе Хадооп ИАРН | Шта је предиво?
Туториал # 7: Свеобухватан водич за тестирање Хадооп-а | Водич за тестирање великих података
Шта ћете научити:
Шта су велики подаци?
Реч Огроман није довољна да објасни БигДата, одређене карактеристике класификују податке у БигДата.
Имамо три главне карактеристике БигДата-е, а ако било који податак задовољава ове карактеристике, онда ће се третирати као БигДата. Ја т је комбинација три доле наведена В:
- Волуме
- Брзина
- Разноврсност
Волуме : Подаци би требало да буду огромног обима. Биг Дата има решење за одржавање велике количине података у терабајту или петабајту. Можемо на једноставан и ефикасан начин извршити ЦРУД (креирање, читање, ажурирање и брисање) операције на БигДата-и.
Брзина : Одговорна је за бржи приступ подацима. На пример, данас је друштвеним мрежама потребна брза размена података у делићу времена и БигДата је најбоље решење за то. Отуда је брзина још једна карактеристика и то је брзина обраде података.
Разноврсност : У друштвеним медијима имамо посла са неструктурираним подацима попут аудио или видео записа, слика итд. Такође, разни сектори попут банкарског домена требају структуриране и полуструктуриране податке. БигДата је решење за одржавање обе врсте података на једном месту.
Разноликост значи различите врсте података попут структурираних / неструктурираних података који долазе из више извора.
Структурирани подаци : Подаци који имају одговарајућу структуру или они који се лако могу сачувати у табеларном облику у било којој релационој бази података као што су Орацле, СКЛ Сервер или МиСКЛ познати су као структурирани подаци. Можемо је лако и ефикасно обрадити или анализирати.
Пример структурираних података су подаци ускладиштени у релационој бази података којима се може управљати помоћу СКЛ-а (језик структурираних упита). На пример, Подаци о запосленима (име, лична карта, назив и плата) могу се чувати у табеларном формату.
У традиционалној бази података можемо извршавати операције или обрађивати неструктуриране или полуструктуриране податке тек након што се форматирају или уклопе у релациону базу података. Примери структурираних података су ЕРП, ЦРМ итд.
Полуструктурирани подаци: Полуструктурирани подаци су подаци који нису у потпуности форматирани. Не чува се у табелама података или било којој другој бази података. Али ипак, можемо га лако припремити и обрадити, јер ови подаци садрже ознаке или вредности одвојене зарезима итд. Пример полуструктурираних података су КСМЛ датотеке, ЦСВ датотеке итд.
Неструктурирани подаци: Неструктурирани подаци су подаци који немају никакву структуру. Може бити у било ком облику, не постоји унапред дефинисани модел података. Не можемо га сачувати у традиционалним базама података. Сложено је тражити и обрађивати.
Такође, обим неструктурираних података је веома велик. Пример неструктурираних података је тело е-поште, аудио, видео, слике, постигнути документи итд.
Изазови традиционалних база података
- Традиционална база података не подржава разне податке, тј. Није у могућности да обрађује неструктуриране и полуструктуриране податке.
- Традиционална база података је спора док ради са великом количином података.
- У традиционалним базама података обрада или анализа велике количине података је веома тешка.
- Традиционална база података може да складишти податке у терабајтима или петабајтима.
- Традиционална база података не може да обрађује историјске податке и извештаје.
- Након одређеног времена потребно је чишћење података из базе података.
- Трошкови одржавања велике количине података веома су високи код традиционалне базе података.
- Тачност података је мања у традиционалној бази података јер се у њој не одржавају потпуни историјски подаци.
Велики податакаПредности у односу на традиционалну базу података
добра апликација за преузимање мп3-а за андроид
- Велики подаци су одговорни за руковање, управљање и обраду различитих врста података као што су структурирани, полуструктурирани и неструктурирани.
- Исплативо је у смислу одржавања велике количине података. Ради на систему дистрибуиране базе података.
- Велике количине података можемо дуго да сачувамо користећи технике БигДата. Тако је лако руковати историјским подацима и генерисати тачне извештаје.
- Брзина обраде података је врло брза и стога друштвени медији користе технике великих података.
- Прецизност података велика је предност Биг Дата-а.
- Омогућава корисницима да доносе ефикасне одлуке за своје пословање на основу тренутних и историјских података.
- Руковање грешкама, контрола верзија и искуство купаца су веома ефикасни у БигДата-и.
Предложено читање => Биг Дата вс Биг Дата Аналитицс вс Дата Сциенце
Изазови и ризици у БигДата-и
Изазови:
- Један од главних изазова у Биг Дата-у је управљање великим количинама података. Данас подаци долазе у систем из различитих извора са разноврсним подацима. Дакле, велики је изазов за компаније, да њиме правилно управљају. На пример, да би се генерисао извештај који садржи последњих 20 година података, потребно је сачувати и одржавати последњих 20 година података система. Да бисте пружили тачан извештај, потребно је у систем убацити само релевантне податке. Не би требало да садржи ирелевантне или непотребне податке, иначе ће одржавање те количине података бити велики изазов за компаније.
- Још један изазов са овом технологијом је синхронизација различитих врста података. Као што сви знамо да Биг Дата подржава структуриране, неструктуриране и полуструктуриране податке који долазе из различитих извора, синхронизација истих и постизање конзистентности података је веома тешко.
- Следећи изазов са којим се компаније суочавају је јаз стручњака који могу помоћи и применити проблеме са којима се суочавају у систему. У овој области постоји велика празнина у талентима.
- Руковање аспектом усклађености је скупо.
- Прикупљање података, агрегација, складиштење, анализа и извештавање о БигДата-и има огромне трошкове. Организација треба да буде у стању да управља свим овим трошковима.
Ризици:
- Може да обрађује разне податке, али ако компаније не могу правилно да разумеју захтеве и контролишу извор података, то ће пружити погрешне резултате. Као резултат, биће потребно пуно времена и новца да се истраже и исправе резултати.
- Сигурност података је још један ризик код БигДата-е. Са великим обимом података, веће су шансе да их неко украде. Хакери података могу красти и продавати важне информације (укључујући историјске податке) компаније.
- Такође, приватност података је још један ризик за БигДата. Ако желимо да заштитимо личне и осетљиве податке од хакера, они би требали бити заштићени и морају проћи све политике приватности.
Технологије великих података
Следе технологије које се могу користити за управљање великим подацима:
- Апацхе Хадооп
- Мицрософт ХДИнсигхт
- Нема СКЛ
- Кошница
- Скооп
- БигДата у програму Екцел
Детаљан опис ових технологија биће покривен у нашим предстојећим водичима.
Алати за коришћење концепата великих података
У наставку су наведени алати отвореног кода који могу помоћи у коришћењу концепата великих података:
# 1) Апацхе Хадооп
# 2) Лумификовати
# 3) Апацхе Сторм
# 4) Апацхе Самоа
# 5) Еластицсеарцх
# 6) МонгоДБ
# 7) ХПЦЦ систем БигДата
Примене великих података
Следе домени у којима се користи:
- Банкарство
- Медији и забава
- Здравствених услуга
- Осигурање
- образовање
- Малопродаја
- Производња
- Влада
Складиште БигДата и података
Складиште података је основни концепт који морамо да разумемо пре него што разговарамо о Хадооп-у или БигДата тестирању.
Хајде да разумемо Складиште података на примеру у стварном времену. На пример , постоји компанија која је основала своје подружнице у три различите земље, претпоставимо подружницу у Индији, Аустралији и Јапану.
У свакој грани, целокупни подаци о купцима се чувају у Локалној бази података. Ове локалне базе података могу бити уобичајени класични РДБМС-ови попут Орацле-а или МиСКЛ-а или СКЛ Сервер-а итд. И сви подаци о купцима ће се свакодневно чувати у њима.
Сада, свака квартално, полугодишње или годишње, организација жели да анализира ове податке за развој пословања. Да би учинила исто, организација ће прикупити све ове податке из више извора, а затим их саставити на једном месту и то место се зове 'Складиште података'.
Складиште података је врста базе података која садржи све податке извучене из више извора или више врста база података кроз „ЕТЛ“ (који је ИС ктрацт, Т. рансформ и Л оад) процес. Када подаци буду спремни у складишту података, можемо их користити у аналитичке сврхе.
Тако да за анализу можемо да генеришемо извештаје на основу података доступних у складишту података. Више графикона и извештаја може се генерисати помоћу алата за пословну интелигенцију.
Складиште података захтевамо у аналитичке сврхе за раст пословања и доношење одговарајућих одлука за организације.
шта од наведеног није одговорност тима?
Три ствари се дешавају у овом процесу, прво је што смо податке извукли из више извора и ставили на једну локацију која је Складиште података.
Овде користимо процес „ЕТЛ“, па ћемо га, док учитавамо податке из више извора на једно место, применити у коријенима трансформације, а затим овде можемо користити разне врсте ЕТЛ алата.
Када подаци буду спремни у складиште података, можемо да генеришемо различите извештаје за анализу пословних података помоћу алата за пословну интелигенцију (БИ) или их називамо и алати за извештавање. Алати попут Таблеау или Цогнос могу се користити за генерисање извештаја и контролних табли за анализу података за пословање.
ОЛТП И ОЛАП
Хајде да схватимо шта су ОЛТП и шта су ОЛАП?
Позивају се базе података које се одржавају локално и користе се у трансакционе сврхе ОЛТП тј. Мрежна обрада трансакција. Свакодневне трансакције ће се овде чувати и одмах ажурирати и зато смо их назвали ОЛТП систем.
Овде користимо традиционалне базе података, имамо више табела и постоје односи, тако да се све систематски планира према бази података. Не користимо ове податке у аналитичке сврхе. Овде можемо користити класичне РДМБС базе података као што су Орацле, МиСКЛ, СКЛ Сервер итд.
Када дођемо до дела Складишта података, користимо Терадата или Хадооп Системс, који су такође врста базе података, али подаци у ДатаВарехоусе-у обично се користе у аналитичке сврхе и називају се ОЛАП или Интернет аналитичка обрада.
Овде се подаци могу ажурирати квартално, полугодишње или годишње. Понекад се подаци ажурирају и „Офферли“, при чему Офферли значи да се подаци ажурирају и преузимају за анализу према захтевима купца.
Такође, подаци за анализу се не ажурирају свакодневно, јер ћемо податке добијати из више извора, по распореду и можемо извршити овај ЕТЛ задатак. Овако функционише систем аналитичке обраде на мрежи.
И овде БИ алати или алати за извештавање могу генерисати извештаје, као и контролне табле, и на основу тога ће пословни људи доносити одлуке о побољшању свог пословања.
Где БигДата долази у слику?
БигДата су подаци који премашују капацитет складиштења и обраде конвенционалних база података и налазе се у структурираном и неструктурираном формату, тако да локални РДБМС системи не могу њима да рукују.
Ова врста података генерираће се у ТераБитес (ТБ) или ПетаБитес (ПБ) или шире, а данас се брзо повећава. Постоји више извора за добијање ове врсте података као што су Фацебоок, ВхатсАпп (који су повезани са друштвеним мрежама); Амазон, Флипкарт у вези са е-трговином; Гмаил, Иахоо, Редифф повезани са имејловима и Гоогле-ом и другим претраживачима. Бигдата добијамо и са мобилних телефона попут СМС података, снимања позива, евиденције позива итд.
Закључак
Велики подаци су решење за ефикасно и сигурно руковање великим количинама података. Одговорно је и за одржавање историјских података. Много је предности ове технологије, због чега свака компанија жели да пређе на велике податке
Аутор: Ваисхали Тареи, технички руководилац @ Синтел
Препоручено читање
- Дата Март Туториал - Врсте, примери и примена Дата Март
- 10 најбољих алата за дизајн базе података за изградњу сложених модела података
- 20+ МонгоДБ лекција за почетнике: бесплатан МонгоДБ курс
- Шта је језеро података | Складиште података вс Дата Лаке
- 10 најбољих алата за тестирање и проверу структурираних података за СЕО
- Димензионални модел података у складишту података - Водич са примерима
- Рударство података: процес, технике и главни проблеми у анализи података
- Како извршити тестирање на основу података у програму СоапУИ Про - Водич за соапУИ бр. 14