what is data lake data warehouse vs data lake
Овај водич објашњава све о језеру података, укључујући потребе, дефиницију, архитектуру, предности и разлике између језера података и складишта података:
Израз „језеро података“ користи се прилично често у данашњем ИТ свету. Да ли сте се икад запитали шта је то и одакле тачно потиче тај појам?
У доба информационе технологије у коме се подаци множе дању и ноћу у бројним облицима, концепт језера података постаје свакако важан и користан.
Истражимо шта је језеро података и које су његове предности, употреба итд. Овде детаљно.
Шта ћете научити:
- Шта је језеро података и како оно функционише?
- Закључак
Шта је језеро података и како оно функционише?
Језеро података је систем или централизовано спремиште података које вам омогућавају да сачувате све своје структуриране, полуструктуриране, неструктуриране и бинарне податке у свом природном / изворном / сировом формату.
Структурирани подаци могу укључивати табеле из РДБМС-ова; полуструктурирани подаци укључују ЦСВ датотеке, КСМЛ датотеке, евиденције, ЈСОН итд .; неструктурирани подаци могу садржати ПДФ-ове, ворд документе, текстуалне датотеке, е-пошту итд .; и бинарни подаци могу да укључују аудио, видео, сликовне датотеке.
Прати равну архитектуру за чување података. Генерално, подаци се чувају у облику објектних блобова или датотека.
(слика извор )
Уз језеро података можете на једном месту ускладиштити цело предузеће, без потребе за прво структурирањем података. На њему можете директно извршити разне врсте аналитике, укључујући машинско учење, аналитику у реалном времену, локално кретање података, кретање података у реалном времену, контролне табле и визуализације.
У њему се чувају сви подаци у изворном облику и претпоставља се да ће се анализа извршити касније, на захтев.
Аналогија језера података
(слика извор )
Термин Дата Лаке сковао је Јамес Дикон, тадашњи технички директор у Пентаху. Он дефинише дата март (подскуп складишта података) као сличан боци за воду напуњеној очишћеном, дестилованом водом, упакованој и структурираној за директну и лаку употребу.
С друге стране, аналоган је воденом тијелу у свом природном облику. Подаци теку из токова (разне пословне функције / системи извора) до језера. Потрошачи дата језера, тј. Корисници имају приступ језеру како би могли да анализирају, испитају, сакупе узорке и зароне.
Баш као што вода у језеру задовољава различите потребе људи попут риболова, вожње чамцем, снабдевања водом за пиће итд., Слично томе, архитектура података језера служи у више сврха.
разлике између ц ++ и ц
Научник података може га користити за истраживање података и стварање хипотезе. Нуди могућност аналитичарима података да анализирају податке и открију обрасце. Пружа начин пословним корисницима и заинтересованим странама за истраживање података.
Такође пружа могућност извештавању аналитичара да дизајнирају извештаје и представе их послу. Супротно томе, складиште података је запаковало податке у добро дефинисане сврхе баш попут бислеријеве боце која се може користити само за пијаћу воду.
Тржиште Дата Лаке - раст, трендови и предвиђања
Тржиште језера података је подељено на основу производа (решења или услуге), примене (локално или у облаку), индустрије клијената (малопродаја, банкарство, комуналне услуге, осигурање, ИТ, здравство, телеком, издаваштво, производња) и географског порекла регије.
Према извештају који је објавио Мордор Интеллигенце, испод је снимак тржишта за дата лаке:
(слика извор )
# 1) Резиме тржишта
Тржиште Дата Лакес процењено је на 3,74 милијарде УСД у 2019. години и очекује се да ће до 2025. године достићи 17,60 милијарди УСД, према ЦАГР (сложена годишња стопа раста) од 29,9% током периода пројекције 2020 - 2025.
Ови резервоари података постају све економичнија опција за многе организације над складиштима података. За разлику од језера података, складиштење података захтева додатну обраду података пре уласка у складиште.
Трошкови управљања језером података мањи су у поређењу са складиштем података, јер је потребно много обраде и простора који је потребан за стварање базе података за складишта.
# 2) Главни играчи
Предвиђа се да ће тржиште Дата Лаке бити консолидовано тржиште којим доминира пет кључних играча, као што се види на доњој слици.
# 3) Кључни трендови
- Очекује се да ће његова употреба знатно порасти у банкарском сектору. Банке усвајају језера података како би пружале аналитику у покрету. Такође, помаже у растварању многих силоса у банкарском сектору.
- Како постоји огроман пораст дигиталних плаћања / употребе мобилних новчаника широм света, опсег аналитике великих података и самим тим повећава се могућност за њих.
- Очекује се да ће Северна Америка бити високо усвојена за језера података. Студија коју је урадио Цапгемини каже да преко 60% финансијских организација у САД мисли да аналитика великих података делује као диференцијатор за пословање и даје им конкурентску предност. Преко 90% организација сматра да улагање у пројекте великих података повећава шансе за успех у будућности.
- Они су потребни за употребу апликација паметних бројила, а у САД се очекује да ће 2021. године бити инсталирано око 90 милиона паметних бројила. Отуда је предвиђена велика потражња за њима.
Зашто је потребно језеро података?
Сврха језера података је да пружи непрерађени увид у податке (податке у најчишћем облику).
Примери
Данас многе велике компаније, укључујући Гоогле, Амазон, Цлоудера, Орацле, Мицрософт и још неколицину, нуде понуде за језеро података.
Многе организације користе услуге складиштења у облаку попут Азуре Дата Лаке или Амазон С3. Компаније такође користе дистрибуирани систем датотека попут Апацхе Хадооп. Концепт језера са личним подацима који вам омогућава управљање и дељење сопствених великих података такође се развио.
Ако говоримо о индустријској употреби, онда је то врло погодно за здравство. Због неструктурираног формата великог броја података у здравству ( На пример, Напомене лекара, клинички подаци, историја болести пацијента итд.) И захтев за увидом у реалном времену, језеро података је одлична опција над складиштем података.
како да пронађем свој мрежни сигурносни код
Нуди флексибилна решења и у образовном сектору где су подаци врло широки и врло сирови.
У транспортном сектору, углавном у управљању ланцем снабдевања или логистиком, помаже у давању предвиђања и остваривању користи од смањења трошкова.
Ваздухопловна и електроенергетска индустрија такође користе језера података.
Пример његове примене је ГЕ Предик (развио га је Генерал Елецтриц) који је индустријска платформа за језеро података која нуди јаке компетенције управљања подацима за креирање, примену и управљање индустријским апликацијама које повезују индустријске ресурсе, прикупљају и анализирају податке и пружају податке у реалном времену увиди за побољшање индустријске инфраструктуре и процеса.
Разлика између складишта података и језера података
Често је људима тешко да схвате како се језеро разликује од складишта података. Они такође тврде да је то исто као и складиште података. Али ово није стварност.
Једино заједничко између језера података и складишта података је то што су оба спремишта за складиштење података. Одморите се, они су различити. Они имају различите случајеве употребе и намене.
Разлике су појашњене у наставку:
Дата Лаке | Складиште података | |
---|---|---|
Аналитика | Језеро података може се користити за машинско учење, профилисање података за откривање података и предиктивну анализу. | Складиште података може се користити за пословну интелигенцију, визуализације и групно извештавање. |
Подаци | Језеро података ће у себи задржати све сирове податке. Може бити структуриран, неструктуриран или полуструктуриран. Можда ће бити могуће да се неки подаци у језеру података никада неће користити. | Складиште података укључује само оне податке који се обрађују и дорађују, тј. Структуриране податке који су потребни за извештавање и решавање одређених пословних проблема. |
Корисници | Генерално, корисници језера података су научници и програмери података. | Генерално, корисници складишта података су пословни професионалци, оперативни корисници и пословни аналитичари. |
Приступачност | Језеро података је изузетно доступно и лако и брзо се ажурира, јер нема никакву структуру. | У складишту података ажурирање података је сложенија и скупља операција, јер су складишта података структурирана према дизајну. |
Шема | Шема-на-писање. Дизајнирано пре примене ДВ-а. | Шема-на-читању. Написано у време анализе. |
Архитектура | Равна архитектура | Хијерархијска архитектура |
Сврха | Сврха необрађених података похрањених у језицима података није фиксна или није одређена. Подаци понекад могу да се сливају у језеро података имајући на уму неку одређену будућу употребу или само да би им били при руци. Податковно језеро има мање организоване и мање филтриране податке. | Обрађени подаци ускладиштени у складишту података имају одређену и одређену намену. ДВ је организовао и филтрирао податке. Стога му је потребно мање простора за складиштење од базе података. |
Складиште | Дизајниран за јефтино складиштење. Хардвер језера података се веома разликује од хардвера складишта података. Користи готове сервере у комбинацији са јефтиним складиштем. Ово чини језеро података прилично економичним и изузетно скалабилним на терабајте и петабајте. Ово се ради како би се сви подаци задржали у језеру података, тако да се у било ком тренутку можете вратити у време да бисте урадили анализу. | Скупо за велике количине података. Складиште података има скупо складиште на диску како би га учинило изузетно ефикасним. Због тога је, ради очувања простора, модел података поједностављен и у складишту података се чувају само они подаци који су заиста потребни за доношење пословних одлука. |
Подршка за типове података | Језеро података веома добро подржава нетрадиционалне типове података као што су евиденције сервера, подаци сензора, активности на друштвеним мрежама, текст, слике, мултимедија итд. Сви подаци се чувају без обзира на извор и структуру. | Генерално, складиште података састоји се од података преузетих из трансакционих система. Не подржава добро нетрадиционалне типове података. Чување и трошење нетрадиционалних података може бити скупо и тешко са складиштем података. |
Сигурност | Сигурност језера података је у фази „сазревања“, јер је ово релативно нов концепт од складишта података. | Сигурност складишта података је у фази „сазревања“. |
Окретност | Веома окретан; конфигуришите и поново конфигуришите по потреби. | Мање окретан; фиксна конфигурација. |
Дата Лаке Арцхитецтуре
Дијаграм архитектуре
Изнад је концептуални дијаграм архитектуре језера података. На левом делу видите да имамо изворе података који могу бити структурирани, полуструктурирани или неструктурирани.
Ови извори података се комбинују у сирову меморију података која користи податке у сировом облику, тј. Податке без икаквих трансформација. Ово је јефтино, трајно и скалабилно складиште.
Даље, имамо аналитичке песковнике који се могу користити за откривање података, истраживачку анализу података и предиктивно моделирање. У основи, ово користе научници за истраживање података да би истражили податке, изградили нову хипотезу и дефинисали случајеве употребе.
Затим постоји механизам за серијску обраду који обрађује сирове податке у потрошачки употребљив облик, тј. У структурираном формату који се може користити за извештавање крајњих корисника.
Тада имамо механизам за обраду у реалном времену који се узима у ток података и трансформише.
Кључне карактеристике језера података
Да би се спремиште великих података могло класификовати као Језеро података, требало би да поседује следећа три атрибута:
# 1) Једно заједничко спремиште података обично смештено у Дистрибуираном систему датотека (ДФС).
Хадооп подаци подржавају податке у изворном облику и бележе промене података и релативну семантику током животног циклуса података. Овај приступ је посебно користан за провере усклађености и интерне ревизије.
Ово је побољшање изнад уобичајеног складишта података предузећа у којем је када подаци пролазе кроз трансформације, обједињавања и модификације, тешко ставити податке у целину када је то потребно, а компаније настоје да открију извор / порекло података.
# 2) Укључује могућности планирања и распоређивања послова (на пример, путем било ког алата за планирање као што је ИАРН, итд.).
Извршење радног оптерећења је суштинска потреба предузећа Хадооп, а ИАРН нуди управљање ресурсима и централну платформу за пружање сталних процеса, сигурност и алати за управљање подацима у Хадооп кластерима, водећи рачуна да аналитички токови посла поседују потребан ниво приступа подацима и рачунарску снагу.
# 3) Садржи скуп услужних програма и функција потребних за трошење, обраду или рад са подацима.
Лака и брза доступност за кориснике једна је од кључних особина језера података, јер организације складиште податке у изворном или чистом облику.
У било ком облику да су подаци структурирани, неструктурирани или полуструктурирани, они се убацују као и у језеро података. Омогућава власницима података да комбинују податке о купцима, добављачима и операцијама, ослобађајући се било каквих техничких или политичких препрека за дељење података.
Предности
(слика извор )
- Свестран : Довољно компетентан за чување свих врста структурираних / неструктурираних података, од ЦРМ података до активности на друштвеним мрежама.
- Већа флексибилност шеме : Не треба планирање или претходно знање о анализи података. Она чува све податке у изворном облику и претпоставља да ће се анализа извршити касније, на захтев. Ово је веома корисно за ОЛАП. На пример, језеро података Хадооп вам омогућава да будете без шеме, при чему шему можете одвојити од података.
- Анализа одлуке у реалном времену : Уживају у благодати огромне количине доследних података и алгоритама за дубинско учење како би дошли до аналитике одлучивања у реалном времену. Способан да добије вредност из неограничених типова података.
- Скалабилно: Много су скалабилнија од традиционалних складишта података, а такође су и јефтинија.
- Напредна аналитика / компатибилност са СКЛ-ом и другим језицима: Са језицима података постоје бројни начини за испитивање података. За разлику од традиционалних складишта података која подржавају само СКЛ за једноставну аналитику, они вам нуде пуно других опција и језичку подршку за анализу података. Такође су компатибилни са алатима за машинско учење као што је Спарк МЛлиб.
- Демократизовати податке: Демократизовани приступ подацима кроз јединствени, интегрисани приказ података у целој организацији уз коришћење ефикасне платформе за управљање подацима. Ово осигурава свеобухватну доступност података.
- Бољи квалитет података: Свеукупно добијате бољи квалитет података са језицима података захваљујући технолошким предностима као што су складиштење података у изворном формату, скалабилност, свестраност, флексибилност шеме, подршка за СКЛ и друге језике и напредна аналитика.
Изазови и ризици
Језера података нуде пуно предности. Али да, постоји и неколико изазова и ризика повезаних са њима које организација мора пажљиво да реши.
Су:
- Ако нису правилно дизајнирани, могу се претворити у мочваре података. Понекад организације једноставно наставе да бацају неограничене податке у ова језера без икакве стратегије и сврхе на уму.
- Понекад аналитичари који желе да користе податке немају знања о томе како се то ради, јер је прилично изазовно бавити се рударством у језерима података. Дакле, они губе релевантност и замах након неког времена. Организације морају радити на уклањању ове баријере за аналитичаре.
- Како у језицима података имамо пуно неорганизованих података, они нису довољно свежи или актуелни да би се могли користити у производњи. Стога подаци у овим језерима остају у пилот режиму и никада се не пуштају у производњу.
- Неструктурирани подаци могу довести до неупотребљивих података.
- Понекад организације доживљавају да то нема значајног утицаја на пословање с обзиром на извршена улагања. Ово захтева промену начина размишљања. Да би се утицаји појавили, компаније треба да подстакну менаџере и лидере да доносе одлуке на основу аналитике изведене из ових резервоара података.
- Сигурност и контрола приступа такође су један од ризика када радите са њима. Неки подаци који можда захтевају приватност и прописе смештају се у језера података без икаквог надзора.
Имплементација
У предузећу је сасвим разумно имплементирати језеро података на окретан начин.
Односно, да би прво имплементирали Дата Лаке МВП, корисници га тестирају у погледу квалитета, лакоће приступа, складиштења и аналитичких могућности, добијају повратне информације, а затим додају сложене захтеве и функције како би додали вредност језеру.
Генерално, организација пролази кроз четири основне фазе имплементације:
(слика извор )
Фаза 1:
Језеро основних података: У овој фази, тим се бави основном архитектуром, технологијом (заснованом на облаку или наслеђем) и праксама безбедности и управљања за језеро података. Оспособљен је за чување свих сирових података који долазе из различитих корпоративних извора и комбиновање интерних и екстерних података за испоруку обогаћених информација.
Фаза 2:
Пешчаник: Побољшање аналитичке способности: У овој фази, научници података приступају резервоару података да би извршили прелиминарне експерименте за употребу сирових података и дизајнирали аналитичке моделе како би задовољили пословне потребе.
Фаза 3:
како се користи .јар датотека
Складишта података и сарадња на језеру података: У овој фази, организација почиње да користи језеро података у синергији са постојећим складиштима података. Подаци са малим приоритетом се шаљу њима како не би дошло до прекорачења ограничења складиштења података.
Представља могућност за добијање увида из хладних података или постављање упита за откривање информација које нису индексиране у уобичајеним базама података.
Фаза 4:
Усвајање Дата Лаке-а од краја до краја: Ово је последња фаза стицања зрелости у којој се претвара у кључни елемент архитектуре података организације и ефикасно усмерава операцију претраживања. До тада би језеро података заменило ЕДВ и они би постали једини извор свих података предузећа.
Кроз језеро података организација може учинити следеће:
- Створите сложена решења за моделирање података и аналитику за различите пословне потребе.
- Дизајнирајте интерактивне контролне табле које обједињују схватања из језера података, плус разне апликације и изворе података.
- Примените напредне програме аналитике или роботике, јер се баве рачунарским операцијама.
До овог тренутка, она такође има јаке мере безбедности и управљања.
Продавци језера података
Постоје различити добављачи који пружају алате за језеро података у индустрији.
(слика извор )
Ако погледамо велике компаније:
- Рад на рачунару пружа интелигентни алат за језеро података. БДМ (управљање великим подацима) 10.2.2 је најновија доступна верзија.
- Постоји добављач који се зове гледалац који такође пружа алат.
- Компанија Таленд који је популаран због њихових ЕТЛ алата такође нуди алатку Дата Лаке.
- Затим имамо алат отвореног кода под називом Кило од Терадата компанија. Тим под називом „Мисли велико“ у компанији Терадата развио је овај алат.
- Компанија Подаци о бачвама Инц такође пружа ове услуге.
- Од Мицрософт , можете наћи Азурно језеро са подацима доступан у индустрији.
- Хвр-софтвер такође пружа решења за консолидацију језера података.
- Подаци о подијуму, компанија Клик нуди производе за алате попут цевовода за пренос података језера, језеро за податке са више зона.
- Пахуљица такође има дата Лаке производ.
- Залони је компанија за језеро података која обрађује огромне податке користећи Биг Дата.
Дакле, ово су сви популарни добављачи услуга, као и добављачи таквих алата.
Ако тражите вежбање и изграђивање знања о језерима података, онда можете да одаберете Информатицу или Кило. Ако тражите услугу засновану на облаку, можете се одлучити за Лоокер, Информатица и Таленд. Ова три добављача пружају АВС језгра података у облаку. Такође од Кило можете добити једномесечни бесплатни пробни период.
Закључак
У овом упутству детаљно смо разговарали о концепту језера података. Прошли смо кроз основну идеју која стоји иза језера података, његове архитектуре, кључних карактеристика, предности, заједно са примерима, примерима употребе итд.
Такође смо видели како се језеро података разликује од складишта података. Такође смо покрили најбоље добављаче који пружају сродне услуге.
Срећно читање !!
Препоручено читање
- Водич за тестирање складишта података са примерима | ЕТЛ Водич за тестирање
- 10 најбољих алата за тестирање и проверу структурираних података за СЕО
- Рударство података: процес, технике и главни проблеми у анализи података
- Дата Март Туториал - Врсте, примери и примена Дата Март
- 10 најпопуларнијих алата за складиштење података и технологија за тестирање
- Димензионални модел података у складишту података - Водич са примерима
- 10+ најбољих алата за прикупљање података са стратегијама прикупљања података
- Карактеристика базена података у ИБМ Ратионал Куалити Манагер за управљање тест подацима