what is hadoop apache hadoop tutorial
Овај Апацхе Хадооп водич за почетнике детаљно објашњава све о Хадооп-у за велике податке, његовим карактеристикама, оквиру и архитектури:
узорак теста плана за тестирање софтвера
У претходном водичу детаљно смо разговарали о великим подацима. Сада је питање како можемо да рукујемо и обрађујемо тако велику количину података са поузданим и тачним резултатима.
Заиста постоји сјајно решење које пружа Апацхе, а покреће Јава тј. Хадооп Фрамеворк .
=> Прочитајте серију Еаси Траининг БигДата.
Шта ћете научити:
Шта је Хадооп?
Апацхе Хадооп је оквир отвореног кода за управљање свим врстама података (структурираним, неструктурираним и полуструктурираним).
Као што сви знамо, ако желимо да обрађујемо, чувамо и управљамо подацима, РДБМС је најбоље решење. Подаци би требали бити у структурираном формату како би се могли носити са РДБМС-ом. Такође, ако се величина података повећава, тада РДБМС није способан да их обрађује и морамо редовно да обављамо чишћење базе података.
То може проузроковати историјски губитак података и не може генерисати тачне и поуздане резултате у неким гранама попут временске прогнозе, банкарства, осигурања, продаје итд. Други проблем РДБМС-а је тај што ако главни сервер падне, можемо изгубити важну података и много трпе.
У овом упутству ћемо видети како можемо решити ове проблеме са Апацхе Хадооп-ом.
Хадооп је дистрибуирани систем датотека и може да складишти велике количине података (подаци у петабајту и терабајту). Брзина обраде података је такође врло брза и пружа поуздане резултате јер има веома висок систем толеранције на кварове.
Хадооп је програмски оквир отвореног кода заснован на Јави који подржава складиштење и обраду скупова великих података у дистрибуираном рачунарском окружењу.
Хадооп је заснован на концепту кластера који користи робни хардвер. Не захтева никакву сложену конфигурацију и можемо успоставити Хадооп окружење са јефтинијим, једноставним и лаганим хардверским хардвером.
Концепт кластера једноставним речима су подаци који се чувају у формату репликације на више машина, тако да када се било који проблем или катастрофа догоди на некој од локација на којима се подаци налазе, онда мора постојати дупликат тих података који су безбедно доступни на другој локацији .
Хадооп против РДМБС
У наставку су наведене неке тачке које описују предности Хадоопа у односу на РДБМС.
Карактеристике | Хадооп | РДБМС |
---|---|---|
Складиште | Веома велики капацитет складиштења. | Није могуће сачувати Бигдата. |
Архитектура | Хадооп је заснован на ХДФС, МапРедуце и ИАРН. | РДБМС је заснован на АЦИД својствима. |
Волуме | Може да обрађује велику количину података. | РДБМС не може да обрађује велику количину података. |
Разноликост / врсте података | Може да обрађује структуриране, полуструктуриране и неструктуриране податке као што су видео, слике, ЦСВ датотеке, кмл итд. | Рукујте само структурираним подацима. |
Брзина | Брза обрада података велике количине. | Веома споро током обраде велике количине података. |
Пропусност | Велика пропусност. | Ниска пропусност. |
Толеранција грешака | Врло добар | Није у могућности да опорави изгубљене податке ако главни сервер падне. |
Поуздан | Веома поуздани и генеришу тачне историјске и тренутне извештаје. | Није поуздан у смислу Бигдата. |
Хадооп карактеристике
Сада знамо тачну дефиницију Хадооп-а. Померимо се корак напред и упознајмо се са терминологијама које користимо у Хадооп-у, научимо његову архитектуру и видимо како тачно то функционише на Бигдата-у.
Хадооп оквир заснован је на следећим концептима или модулима:
- ХАДООП ПРЕДИЈ
- Хадооп Цоммон
- Хадооп ХДФС ( Х. адооп Д. истрибутед Ф са С. истем)
- Хадооп МапРедуце
# 1) Хадооп ПРЕЂА: ПРЕЂА значи „ И. и ДО нотхер Р. извор Н. еготиатор “који се користи за управљање кластер технологијом облака. Користи се за распоређивање послова.
# 2) Хадооп Цоммон: Ово су детаљне библиотеке или услужни програми који се користе за комуникацију са другим карактеристикама Хадоопа, попут ИАРН, МапРедуце и ХДФС.
# 3) Хадооп ХДФС: Дистрибуирани систем датотека користи се у Хадоопу за складиштење и обраду великог обима података. Такође, користи се за приступ подацима из кластера.
# 4) Хадооп МапРедуце: МапРедуце је главна карактеристика Хадооп-а која је одговорна за обраду података у кластеру. Користи се за планирање послова и надзор обраде података.
Овде смо управо укључили дефиницију ових карактеристика, али детаљан опис свих ових карактеристика видећемо у нашим предстојећим водичима.
Хадооп Арцхитецтуре
Научимо архитектуру оквира и видимо које се компоненте користе у њему. Овај оквир прати архитектуру мастер-славе у кластеру.
Следе компоненте Хадооп-а:
- ХДФС
- Карта смањити
- ПРЕЂА
Ово су три важне компоненте Хадооп архитектуре. Такође бисмо требали разумети неке терминологије или концепте Архитектуре и видети како оне функционишу.
- Чвор имена
- Чвор података
- Чвор секундарног имена
- Блокови
# 1) Чвор имена
Наме Ноде је главни чвор у ХДФС-у. Садржи метаподатке ХДФС-а као што су информације о датотекама, структура директоријума, информације о блоковима и све информације о чвору података итд. Чвор имена одговоран је само за приступ подацима или датотеци са клијента. Прати све трансакције или промене извршене у датотекама.
Углавном ради на две датотеке тј. ФсИмаге и ЕдитЛогс . Име чвор има ЈобТрацкер који садржи све детаље чвора података, на пример, који чвор података има који задатак, колико блокова има сваки чвор података, откуцаје срца сваког чвора података, детаље распореда послова у кластеру итд.
Укратко, можемо рећи да ЈобТрацкер садржи ТаскТрацкер сваког Чвора података.
# 2) Чвор података
Чвор података је подређени чвор у ХДФС-у. Дата Ноде је одговоран за стварно складиштење и обраду података. Његов главни задатак је поделити посао на три блока и сачувати га у различитим чворовима података. Након тога започиње обрада података.
Такође, има ТаскТрацкер који има потпуну информацију о сваком блоку и који је блок одговоран за који задатак, који блокови су извршили задатак, итд. И након обраде података шаље информације у Наме Ноде. Сваки пут када се чвор података покрене, поново шаље све информације у чвор имена.
# 3) Чвор секундарног имена
Чвор секундарног имена користи се у случају толеранције кварова. Постоје два сценарија када Наме Ноде није у функцији, а пуна Хадооп структура ће пропасти јер је Наме Ноде једина тачка квара.
(и) Ако се Наме Ноде поново покрене због било ког проблема него што је требало да се поново појави, јер има огромну количину података, тада је потребно време за опоравак.
(ии) У случају пада Ноде Наме, сви ХДФС подаци ће се изгубити и не могу их поново опоравити, јер је Наме Ноде једина тачка квара. Дакле, да би се превазишла ова питања, постоји Чвор секундарног имена. Такође садржи слику простора имена и евиденције уређивања исте као и чвор имена.
Након одређеног периода копираће слику простора простора имена и ажурирати евиденцију уређивања са чвора имена. Дакле, у случају квара Наме Ноде, Сецондари Наме Ноде долази на слику и понаша се као примарни Наме Ноде. Захваљујући овом процесу спречава потпуни неуспех.
# 4) Блокови
Блокови су најмања јединица у ХДФС-у. Хадооп може обрадити огромну количину датотеке јер је дели на мале блокове. Можемо рећи да блокови нису ништа друго до подаци огромне датотеке. Величина сваког блока је 128МБ. Ови блокови се чувају у чворовима података и обрађују податке.
Сада, научимо архитектуру Хадоопа да бисмо разумели како функционише.
Хадооп дистрибуирани систем датотека (ХДФС) је систем датотека који се користи у Хадооп кластеру. Углавном се ХДФС користи за складиштење Хадооп података у кластеру. ХДФС генерално ради на секвенцијалној обради података. Као што већ знамо, заснован је на Мастер-Славе архитектури.
Сви Метаподаци кластера се чувају на Чвору имена у ЈобТрацкер-у, а стварни подаци се чувају у Чвору података ХДФС-а у ТаскТрацкер-у.
МапРедуце је одговоран за обраду података. Кад год било која датотека уђе у кластер на обраду, тада је први Чвор података дели на блокове и сваки блок садржи 64 МБ података и може да ускладишти 128 МБ. Тада ће се сваки блок реплицирати два пута и чувати у различитим чворовима података било где у кластеру.
Све ове информације ће се послати чвору имена, а чвор имена ће их сачувати у облику метаподатака. Тада ће стварна обрада података покренути Чвор података и слати ће откуцаје срца Чвору имена сваке три секунде, тако да Чвор имена има информације на којима овај Чвор података ради.
Ако било ко из Чвора података не успе да пошаље откуцаје срца, Чвор имена поново креира копију тог блока на другом Чвору података и започиње обраду.
Све ове информације или тренутни снимци чуваће се у ФсИмагеу, а ако се изврши било каква трансакција, уреди дневник, обједини нове информације и увек чува нову копију дневника.
Преузеће се блок који први заврши задатак, а чвор података шаље информације чвору имена и чвор имена ће у складу с тим предузети радњу.
У целом овом процесу ИАРН ће подржавати и пружати потребне ресурсе систему, тако да то неће утицати на обраду података и брзину. Након обраде података, резултати ће бити сачувани у ХДФС-у за даљу анализу.
Закључак
У овом упутству смо сазнали шта је Хадооп, разлике између РДБМС-а и Хадооп-а, предности, компоненте и архитектура Хадооп-а.
Овај оквир је одговоран за обраду великих података и њихову анализу. Видели смо да МапРедуце, ИАРН и ХДФС раде у кластеру.
Белешка: Следе детаљи о конфигурацији чвора имена и чвора података. Чвор секундарног имена имат ће исту конфигурацију као чвор имена.
Конфигурација чвора имена:
Процесори: 2 четворојезгарна процесора са @ 2 ГХз
РАМ: 128 ГБ
Диск: 6 к 1ТБ САТА
Мрежа: 10 Гигабит Етхернет
Конфигурација чвора података:
Процесори: 2 четворојезгарна процесора са @ 2 ГХз
РАМ: 64 ГБ
Диск: 12-24 к 1ТБ САТА
Мрежа: 10 Гигабит Етхернет
=> Овде погледајте Водич за почетнике великих података.
Препоручено читање
- Водич за велике податке за почетнике | Шта су велики подаци?
- 20+ МонгоДБ лекција за почетнике: бесплатан МонгоДБ курс
- Како поставити Ноде.јс оквир за тестирање: Водич за Ноде.јс
- Дата Март Туториал - Врсте, примери и примена Дата Март
- Дубински водичи за помрачење за почетнике
- Питхон Водич за почетнике (Практични БЕСПЛАТНИ Питхон тренинг)
- Оквир вођен подацима у програму Селениум ВебДривер који користи Апацхе ПОИ
- ЛоадРуннер Водич за почетнике (бесплатни 8-дневни курс дубине)