hadoop hdfs hadoop distributed file system
Овај водич објашњава Хадооп ХДФС - Хадооп дистрибуирани систем датотека, компоненте и архитектура кластера. Такође ћете научити о алгоритму за информисање о рацку:
Као што смо сазнали у претходном водичу, највећи проблем код великих података је њихово складиштење у постојећи систем. Па чак и ако смо део тога некако ускладиштили у постојећи систем, обрада тог БигДата-а трајала је годинама.
Резултати које сте желели у неколико минута трајали су недељама или можда месецима и због тога је вредност тог резултата изгубљена.
=> Овде припазите на једноставну серију тренинга БигДата.
Шта ћете научити:
Дистрибуирани систем датотека Хадооп
Да бисмо решили овај проблем или се решили са њим, сада имамо ХАДООП. Хадооп је овај проблем великих података решио користећи Хадооп ХДФС.
Хадооп ХДФС решио проблем складиштења великих података и Хадооп Мап Редуце решио питања везана за обраду дела великих података.
Сада знамо да Хадооп у основи има Дистрибуирани систем датотека ... АЛИ ЗАШТО?
најбољи софтвер за надгледање температуре процесора и гпу-а
Зашто је Хадооп дистрибуирани систем датотека?
Покушајмо да схватимо шта је дистрибуирани систем датотека и да схватимо предности дистрибуираног система датотека.
Дистрибуирани систем датотека
Узмимо пример читања 1ТБ података. Имамо сервер који је добар врхунски сервер који има 4 И / О (Инпут Оутпут) канала и сваки канал има пропусни опсег од 100МБ / с, користећи ову машину, моћи ћете да прочитате ове податке од 1ТБ за 43 Минута.
Сада, ако унесемо 10 бр. Машина потпуно оваквих, шта ће се онда догодити?
Време смањено на тачно 4,3 минута. То је зато што је целокупни напор подељен на 10 машина и зато се време које је потребно за обраду 1ТБ података смањује на 1/10тходносно 4,3 минута.
Слично томе, када узмемо у обзир БигДата, ти подаци се деле на више делова података и ми их заправо обрађујемо одвојено и зато је Хадооп изабрао Дистрибуирани систем датотека уместо централизованог система датотека.
Компоненте Хадоопа
Хадооп ХДФС има 2 главне компоненте за решавање проблема са БигДата-ом.
- Прва компонента је Хадооп ХДФС за чување великих података.
- Друга компонента је Хадооп Мап Редуце за обраду великих података.
Сада када видимо архитектуру Хадоопа (слика дата доле), он има два крила тамо где је лево крило 'Складиште' а десница је „Обрада“ . То значи да је лево крило ХДФС, односно Хадооп систем дистрибуције датотека, а десно ИАРН и Мап Редуце, тј. Део обраде.
Коришћењем ХДФС-а, Хадооп нам омогућава складиштење великих података, а помоћу ИАРН & Мап Редуце, Хадооп нам омогућава обраду истих великих података које чувамо у ХДФС-у.
Као што можете видети на горњој слици, ХДФС има два главна демона или их можете назвати као процесе или нити који нису ништа друго доли ЈАВА процеси, тј. Покренути у ЈВМ - НамеНоде и ДатаНоде.
НамеНоде је главни демон који ради на Мастер Мацхине-у, тј. Суштински врхунској машини, а ДатаНоде је Славе Мацхине који ради на робном хардверу. ДатаНоде може бити више јер су подређене машине више од главне машине.
Дакле, увек имамо један НамеНоде и више ДатаНоде покренутих на подређеним машинама.
Слично томе, на другој страни имамо ИАРН која опет има два демона, један је Ресоурце Манагер који ради на Мастер Мацхине-у и Ноде Манагер који ради на Славе Мацхине-у баш као ДатаНоде. Дакле, свака подређена машина има два демона - један је ДатаНоде, а други Ноде Манагер.
На главној машини је покренут НамеНоде и покренут је Ресоурце Манагер. НамеНоде је одговоран за управљање подацима у дистрибуираном систему датотека Хадооп, а Ресоурце Манагер је одговоран за извршавање задатака обраде над овим ускладиштеним подацима.
НамеНоде и ДатаНоде
Ући ћемо дубоко у ХДФС архитектуру и стога је важно разумети шта је НамеНоде и ДатаНоде јер су то два главна демона која заправо у потпуности покрећу ХДФС.
НамеНоде
- То је Мастер демон.
- Управљање и одржавање ДатаНодес-а.
- Снима метаподатке.
- Прима откуцаје срца и блокира извештаје са свих ДатаНодес.
ДатаНоде
- То је Славе Даемон.
- Овде се чувају стварни подаци.
- Служи захтевима за читање и писање од клијената.
Само се усредсредите на Дијаграм, као што видите да постоји Централизовани машински чвор имена који контролише разне чворове података који се тамо налазе, тј. Робни хардвер. Дакле, Наме Ноде није ништа друго до Мастер Даемон који одржава све ДатаНоде.
Ови НамеНоде имају све информације о подацима који се чувају у ДатаНоде-у. ДатаНоде, као што и само име сугерише, чува податке који се налазе у Хадооп кластеру.
НамеНоде има само информације о томе који се подаци чувају на којем ДатаНоде-у. Дакле, оно што можемо рећи је да НамеНоде чува метаподатке података који су ускладиштени на ДатаНодес-у.
ДатаНоде такође ради још један задатак, тј. Редовно шаље откуцаје срца у НамеНоде. Откуцаји срца заправо кажу НамеНоде-у да је овај ДатаНоде још увек жив.
На пример, ДатаНодес шаље откуцаје срца натраг на НамеНоде и на тај начин НамеНоде има слику да су ови ДатаНоде живи, тако да НамеНоде може користити ове ДатаНоде за складиштење више података или читање података са ових ДатаНодес.
Сада прелазимо на ДатаНоде, ДатаНоде није ништа друго до славе робови који заправо складиште податке који се шаљу у Хадооп кластер. Ови чворови података су ти који стварно служе захтеву за читање и писање који су направили клијенти.
Ако неко жели да прочита податке из Хадооп кластера, тада ови захтеви заправо обрађују ДатаНодес у којима се подаци налазе.
Архитектура кластера Хадооп
У претходној теми која се односи на НамеНоде и ДатаНоде користили смо термин „Хадооп кластер“. Погледајмо на брзину шта је тачно то?
Горња слика приказује преглед архитектуре кластера Хадооп. Хадооп кластер није ништа друго до мастер-славе топологија, у којој се налази главна машина, као што можете видети на врху, тј. Хадооп кластер. У овој главној машини постоји НамеНоде и покренут је Ресоурце Манагер, тј. Главни демони.
Главна машина је повезана са свим подређеним машинама помоћу прекидача језгра, јер су ти Чворови података заправо ускладиштени у разним полицама, па као што видите Рачунар 1, Рачунар 2, Рачунар 3 до Рачунара Н. Ово није ништа друго до Славе Машине или ДатаНодес и сви су присутни у једном сталку.
„Сталак је заправо група машина које су физички присутне на једном одређеном месту и повезане су једна с другом.“
Стога је мрежни пропусни опсег између сваке машине што је могуће мањи. Слично томе, постоји више регала, међутим, они нису присутни на истој локацији, стога можемо имати „н“ број регала, а такође можемо имати „н“ број ДатаНодеова или рачунара или славе уређаја унутар ових регала.
Тако су подређене машине заправо распоређене по кластеру, међутим, истовремено су повезане једна с другом.
Како се подаци чувају у ХДФС-у?
Сада полако улазимо у детаље како ХДФС уопште функционише. Овде ћемо истражити архитектуру ХДФС-а.
Кад кажемо, чување датотеке у ХДФС-у, подаци се чувају као блокови у ХДФС-у. Цела датотека није ускладиштена у ХДФС-у, јер као што знате Хадооп је дистрибуирани систем датотека.
Дакле, ако имате величину датотеке можда 1 ПБ (Пета бајт), тада таква врста складишта није присутна ни на једној машини јер је Хадооп кластер направљен помоћу робног хардвера. Хардвер у једној машини би био око 1 ТБ или 2 ТБ.
Стога целу датотеку треба разбити на делове података који се називају ХДФС блокови.
- Свака датотека се чува на ХДФС-у као блокови.
- Подразумевана величина сваког блока је око 128 МБ у Апацхе Хадооп 2.к (и 64 МБ у претходној верзији, тј. Апацхе Хадооп 1.к).
- Постоји могућност повећања или смањења величине датотеке блокова помоћу конфигурационе датотеке, тј. Хдфссите.кмл, која долази са пакетом Хадооп.
Узмимо пример да бисмо разумели овај механизам и видели како се стварају ови блокови.
Размотримо овде датотеку од 248 МБ, ако је преломимо или ако датотеку преместимо у Хадооп Цлустер, тј. 2.к, тада ће се датотека разбити на један блок, тј. На блок А од 128 МБ и на други блок Б од 120 МБ.
Као што видите, први блок је величине 128 МБ, тј. Прва се плоча посече тамо, и зато је други блок величине 120 МБ, а не 128 МБ, тј. Неће изгубити простор ако је преостала величина датотеке мања од задате величине блока.
Сада је пред нама још један проблем, тј. Да ли је сигурно имати по једну копију сваког блока?
како отворити .бин датотеке
Одговор је НЕ, јер постоји шанса да систем може заказати и није ништа друго до роба хардвера због које бисмо могли да имамо велике проблеме. Да би решио овај проблем, Хадооп ХДФС има добро решење, тј. „Репликација блока“.
Репликација блока архитектуре Хадооп
Хадооп креира реплике сваког блока који се ускладишти у дистрибуираном систему датотека Хадооп и ово је начин на који је Хадооп систем толерантан на грешке, тј. Иако ваш систем закаже или ваш ДатаНоде закаже или се копија изгуби, имат ћете више других копија присутни у другим ДатаНодес-има или на другим серверима, тако да те копије увек можете одабрати одатле.
Као што се види на горњем дијаграму који представља репликацију блока, постоји пет различитих блокова датотеке, тј. Блок 1, 2,3,4,5. Прво проверимо код блока 1 и копије блока 1 наћи ћете у чворовима 1, чворовима 2 и 4.
Слично томе, блок 2 такође има три примерка, тј. Чвор 2, чвор 3 и чвор 4, па тако и за блок 3, 4 и 5 у одговарајућим чворовима.
Дакле, осим што се реплике креирају, сваки блок је три пута поновљен, тј. Хадооп следи задати фактор репликације од три, што значи да се свака датотека коју копирате у Хадооп Дистрибутион Филе Систем три пута реплицира.
Другим речима, ако копирате 1 ГБ датотеке у Хадооп Дистрибутион Филе Систем, он заправо складишти 3 ГБ датотеке у ХДФС. Добар део је тај што је подразумевани фактор репликације променљив променом у конфигурационим датотекама Хадооп-а.
Како Хадооп одлучује где ће чувати реплике?
Хадооп заправо следи концепт Рацк Аваренесс да одлучи где ће чувати коју копију блока.
Доље је дат дијаграм који приказује алгоритам за информисање о рацку.
Постоје три различита сталка, тј. Рацк-1, Рацк-2 и Рацк-3.
Рацк-1 има четири ДатаНоде-а, као и Рацк-2 & Рацк-3, тако да ће се укупно цео Хадооп кластер састојати од сва три регала и биће 12 ДатаНодес-а.
Рецимо да је Блок А копиран на ДатаНоде 1 у Рацк-1, јер према концепту Рацк Аваренесс-а, реплика Блока А не може се креирати у истом рацк-у и треба га створити у било ком другом рацк-у осим Рацк-1 као главна датотека већ постоји у Рацк-1.
Ако креирамо реплике блока А на истом Рацк-1 и у случају да цео Рацк-1 закаже, сигурно ћемо изгубити податке, тако да реплике морају да се чувају у било ком другом реку, али не и у Рацк-1.
Дакле, реплика ће бити створена у ДатаНоде 6 и 8 Рацк-2. Слично томе, за блок Б и блок Ц, реплике ће се креирати у различитим полицама, као што је приказано на горњем дијаграму.
Закључак
Научили смо са следећим упутама из овог водича -
- Хадооп ХДФС решава проблем складиштења БигДата.
- Хадооп Мап Редуце решава проблеме у вези са обрадом БигДата-а.
- НамеНоде је главни демон и користи се за управљање и одржавање ДатаНодес-а.
- ДатаНоде је Славе Даемон и стварни подаци се овде чувају. Служи за читање и писање захтева клијената.
- У Хадооп Цлустер-у, сталак је заправо група машина које су физички присутне на једном одређеном месту и повезане су једна с другом.
- Свака датотека се чува на ХДФС-у као блокови.
- Подразумевана величина сваког блока је око 128 МБ у Апацхе Хадооп 2.к (64 МБ у претходној верзији, тј. Апацхе Хадооп 1.к)
- Постоји могућност повећања или смањења величине датотеке блокова помоћу конфигурационе датотеке, тј. Хдфссите.кмл, која долази са пакетом Хадооп.
У следећем упутству о ХДФС-у научићемо о ХДФС архитектури и механизмима читања и писања.
=> Посетите овде да бисте видели серију тренинга БигДата за све.
Препоручено читање
- Шта је Хадооп? Водич за Апацхе Хадооп за почетнике
- Манипулација датотекама у Унику: Преглед система Уник датотека
- Уник посебни знакови или метазнакови за манипулисање датотекама
- Дозволе за приступ Уник датотекама: Уник Цхмод, Цховн и Цхгрп
- Ранорек тест пакет, израда тест модула, датотека УсерЦоде, Кспатх и везивање података
- Објекти датотеке ВБСцрипт: ЦопиФиле, ДелетеФиле, ОпенТектФиле, читање и писање текстуалне датотеке
- Излазне операције уноса датотека у Ц ++
- Примена Јава-а: Стварање и извршавање Јава ЈАР датотеке