what is etl extract
Овај детаљни водич о ЕТЛ процесу објашњава ток процеса и кораке који су укључени у ЕТЛ процес (екстракција, трансформација и учитавање) у складишту података:
Овај водич у серији објашњава: Шта је ЕТЛ процес? Издвајање података, трансформација, учитавање, равне датотеке, шта је инсценација? ЕТЛ циклус итд.
Почнимо!!
=> Овде погледајте савршен водич за обуку о складиштењу података.
Шта ћете научити:
- Основе процеса ЕТЛ (екстракт, трансформација, учитавање)
- Закључак
Основе процеса ЕТЛ (екстракт, трансформација, учитавање)
Циљна група
- Програмери складишта података / ЕТЛ програмери и тестери.
- Стручњаци за базе података са основним знањем о концептима база података.
- Администратори базе података / стручњаци за велике податке који желе да разумеју подручја складишта података / ЕТЛ.
- Дипломирани студенти / студенти који траже посао у складишту података.
Шта је ЕТЛ поступак у складишту података?
Сви знамо да је складиште података збирка огромних количина података како би се пословним корисницима пружили подаци уз помоћ алата за пословну интелигенцију.
Да би служио у ту сврху, ДВ треба учитавати у редовним интервалима. Подаци у систем се прикупљају из једног или више оперативних система, равних датотека итд. Процес који доводи податке у ДВ познат је под називом ЕТЛ процес . Издвајање, трансформација и учитавање задаци су ЕТЛ-а.
# 1) Издвајање: Сви пожељни подаци из различитих изворних система, као што су базе података, апликације и равне датотеке, идентификују се и издвајају. Издвајање података може се извршити покретањем послова током нерадног времена.
# 2) Трансформација: Већина извучених података не може се директно учитати у циљни систем. На основу пословних правила, могу се извршити неке трансформације пре учитавања података.
На пример, подаци циљне колоне могу очекивати као извор улазне податке повезане две изворне колоне. Исто тако, може постојати сложена логика за трансформацију података која захтева стручност. Неки подаци који не требају никакве трансформације могу се директно преместити у циљни систем.
Процес трансформације такође исправља податке, уклања нетачне податке и исправља све грешке у подацима пре него што их учита.
# 3) Учитавање: Све прикупљене информације учитавају се у циљне табеле складишта података.
Издвајање података
Издвајање података игра главну улогу у дизајнирању успешног ДВ система. Различити изворни системи могу имати различите карактеристике података, а ЕТЛ процес ће ефикасно управљати тим разликама док вади податке.
' Логичка карта података ”Је основни документ за издвајање података. То показује који би изворни подаци требали ићи у коју циљну табелу и како се изворна поља пресликавају у одговарајућа поља циљне табеле у ЕТЛ процесу.
Испод су кораци које треба извршити током дизајнирања логичких података:
- Архитекта складишта података дизајнира документ логичке мапе података.
- Позивајући се на овај документ, програмер ЕТЛ ће створити ЕТЛ послове, а ЕТЛ тестери ће створити тестове.
- Сви специфични извори података и одговарајући елементи података који подржавају пословне одлуке биће наведени у овом документу. Ови елементи података ће деловати као улазни подаци током процеса екстракције.
- Анализирају се подаци из свих изворних система и документују се било какве аномалије података, тако да ово помаже у дизајнирању исправних пословних правила како би се зауставило извлачење погрешних података у ДВ. Такви подаци су овде одбачени.
- Једном када коначни изворни и циљни модел података дизајнирају ЕТЛ архитекте и пословни аналитичари, они могу да прошетају са ЕТЛ програмерима и тестерима. Овим ће стећи јасно разумевање како се пословна правила требају изводити у свакој фази екстракције, трансформације и утовара.
- Пролазећи кроз правила мапирања из овог документа, ЕТЛ архитекте, програмери и тестери би требали добро разумети како подаци теку из сваке табеле као димензије, чињенице и било које друге табеле.
- Овде су такође поменуте било какве врсте правила или формула за манипулацију подацима како би се избегло издвајање погрешних података. На пример, издвојити само последњих 40 дана података итд.
- Одговорност ЕТЛ тима је да детаљно анализира податке у складу са пословним захтевима, да изнесе сваки користан изворни систем, табеле и податке колона који се учитавају у ДВ.
Документ мапе логичких података обично је табела која приказује следеће компоненте:
(табела „“ није пронађена /)Дијаграм тока екстракције:
Наведите временски прозор за покретање послова унапред за сваки изворни систем, тако да током циклуса екстракције неће пропустити изворни подаци.
Са горњим корацима, екстракцијом се постиже циљ претварања података из различитих формата из различитих извора у један ДВ формат, што користи читавим ЕТЛ процесима. Такви логички постављени подаци кориснији су за бољу анализу.
Методе екстракције у складишту података
У зависности од изворног и циљног окружења података и пословних потреба, можете одабрати метод екстракције погодан за ваш ДВ.
# 1) Методе логичке екстракције
Издвајање података у систему складишта података може бити једнократно пуно оптерећење које се извршава у почетку (или) то могу бити инкрементална учитавања која се јављају сваки пут са сталним ажурирањима.
примери орацле скл упита са одговорима пдф
- Потпуна екстракција: Као што и само име сугерише, изворни системски подаци се у потпуности издвајају у циљну табелу. Сваки пут када ова врста екстракције учита целокупне тренутне изворне системске податке без разматрања последњих издвојених временских жигова. Пожељно је да за почетна оптерећења или табеле са мање података користите потпуну екстракцију.
- Инкрементална екстракција: Подаци који се додају / модификују од одређеног датума узимаће се у обзир за постепено издвајање. Овај датум је специфичан за пословање као последњи издвојени датум (или) датум последње наруџбе итд. Можемо се позвати на колону временске ознаке из саме изворне табеле (или) може се направити посебна табела која ће пратити само детаље датума издвајања. Позивање на временску ознаку је значајна метода током инкременталне екстракције. Логика без временске ознаке може пропасти ако ДВ табела има велике податке.
# 2) Методе физичке екстракције
У зависности од могућности изворних система и ограничења података, изворни системи могу физички да обезбеде податке за издвајање као мрежно издвајање и ванмрежно издвајање. Ово подржава било који од логичких типова екстракције.
- Интернет издвајање :: Можемо се директно повезати на било коју базу података изворног система помоћу низова везе како бисмо извукли податке директно из изворних системских табела.
- Издвајање ван мреже :: Овде се нећемо директно повезати са базом података изворног система, већ изворни систем пружа податке експлицитно у унапред дефинисаној структури. Изворни системи могу пружити податке у облику равних датотека, Думп датотека, архивских дневника и табеларних простора.
ЕТЛ алати су најпогоднији за извођење било каквих сложених издвајања података, било који број пута за ДВ иако су скупи.
Издвајање промењених података
Када је почетно учитавање завршено, важно је размотрити како даље извући податке који су промењени из изворног система. Тим ЕТЛ процеса требало би да на почетку самог пројекта изради план како да спроведе екстракцију за почетна и инкрементална оптерећења.
Углавном можете размотрити стратегију „Ревизија колона“ за инкрементално учитавање да бисте ухватили промене података. Генерално, изворне системске табеле могу садржати ревизијске колоне које чувају временску ознаку за свако уметање (или) модификацију.
Временска марка се може попунити окидачима базе података (или) из саме апликације. Морате осигурати тачност података колона ревизије, чак и ако се на било који начин учитавају, да не бисте пропустили промењене податке за инкрементална учитавања.
Током инкременталног учитавања можете узети у обзир максималан датум и време када се догодило последње учитавање и извући све податке из изворног система са временском ознаком већом од последње временске ознаке.
Током издвајања података:
- Оптимално користите упите за преузимање само оних података који су вам потребни.
- Немојте много користити клаузулу Дистинцт јер успорава перформансе упита.
- Пажљиво користите СЕТ операторе као што су Унион, Минус, Интерсецт јер то погоршава перформансе.
- Користите кључне речи за упоређивање попут клаузуле, између итд. У реченици вхере, а не функције као што су субстр (), то_цхар () итд.
Трансформација података
Трансформација је поступак у којем се скуп правила примењује на извучене податке пре директног учитавања података изворног система у циљни систем. Издвојени подаци се сматрају сировим подацима.
Процес трансформације са сетом стандарда доводи све различите податке из различитих изворних система у корисне податке у ДВ систему. Трансформација података има за циљ квалитет података. Можете се упутити на документ мапирања података за сва правила логичке трансформације.
На основу правила трансформације, ако било који изворни подаци не испуњавају упутства, такви изворни подаци се одбацују пре учитавања у циљни ДВ систем и стављају у датотеку одбијања или табелу одбацивања.
Правила трансформације нису наведена за податке колона са правим оптерећењем (не треба никакве промене) од извора до циља. Стога се трансформације података могу класификовати као једноставне и сложене. Трансформације података могу укључивати конверзије колона, преобликовање структуре података итд.
Доље су дати неки од задатака које треба извршити током трансформације података:
# 1) Избор: Можете да изаберете или целокупне податке табеле или одређени скуп података колона из изворних система. Избор података обично се довршава на самом извлачењу.
Могу бити случајеви када изворни систем не дозвољава одабир одређеног скупа података колона током фазе екстракције, затим издвајање целих података и избор у фази трансформације.
# 2) Цепање / спајање: Одабраним подацима можете манипулисати раздвајањем или придруживањем. Од вас ће се тражити да још више поделите одабране изворне податке током трансформације.
На пример, ако је цела адреса ускладиштена у једном великом текстуалном пољу у изворном систему, ДВ систем може тражити да се адреса подели на посебна поља као град, држава, поштански број итд. То је лако за индексирање и анализу на основу сваког компонента појединачно.
Док се спајање / спајање података са две или више колона широко користи током фазе трансформације у ДВ систему. То не значи спајање два поља у једно поље.
На пример, ако информације о одређеном ентитету долазе из више извора података, тада се прикупљање информација као један ентитет може назвати спајањем / спајањем података.
# 3) Конверзија: Издвојени изворни системски подаци могу бити у различитим форматима за сваки тип података, па би сви извађени подаци требало да се претворе у стандардизовани формат током фазе трансформације. Иста врста формата је лако разумљива и лака за коришћење за пословне одлуке.
# 4) Резимирање: У неким ситуацијама ДВ ће тражити сажете податке, а не детаљне податке ниског нивоа из изворних система. Будући да подаци на ниском нивоу нису најпогоднији за анализу и упите од стране пословних корисника.
На пример, подаци о продаји за сваку наплату можда неће захтевати систем ДВ, корисни су дневни нуспроизводи (или) дневне продаје у продавници. Стога се сумирање података може извршити током фазе трансформације у складу са пословним захтевима.
# 5) Обогаћивање: Када се ДВ ступац формира комбиновањем једног или више ступаца из више записа, обогаћивање података ће преуредити поља за бољи приказ података у ДВ систему.
# 6) Ревизије формата: Ревизије формата дешавају се најчешће током фазе трансформације. Тип података и његова дужина ревидирају се за сваку колону.
На пример, колона у једном изворном систему може бити нумеричка, а иста колона у другом изворном систему може бити текст. Да би се ово стандардизовало, током фазе трансформације тип података за ову колону се мења у текст.
# 7) Декодирање поља: Када извлачите податке из више изворних система, подаци у различитим системима могу се различито декодирати.
На пример, један изворни систем може представљати статус купца као АЦ, ИН и СУ. Други систем може представљати исти статус као 1, 0 и -1.
Током фазе трансформације података морате да декодирате такве кодове у одговарајуће вредности које су разумљиве пословним корисницима. Стога се горњи кодови могу променити у Активни, Неактивни и Обустављени.
# 8) Израчунате и изведене вредности: Узимајући у обзир изворне системске податке, ДВ може да ускладишти додатне податке колона за прорачуне. Морате да направите прорачуне на основу пословне логике пре него што их сачувате у ДВ.
# 9) Конверзија датума / времена: Ово је један од кључних типова података на које се треба концентрисати. Формат датума / времена може се разликовати у више изворних система.
На пример, један извор може сачувати датум као 10. новембар 1997. Други извор може сачувати исти датум у формату 10.11.1997. Стога, током трансформације података, све вредности датума / времена треба претворити у стандардни формат.
# 10) Уклањање дупликата: У случају да изворни систем има дупликате записа, онда осигурајте да је само један запис учитан у ДВ систем.
Дијаграм тока трансформације:
Како спровести трансформацију?
У зависности од сложености трансформације података, можете користити ручне методе, алате за трансформацију (или) комбинацију обе врсте ефеката.
# 1) Ручне технике
Ручне технике су одговарајуће за мале системе ДВ. Аналитичари и програмери података креираће програме и скрипте за ручну трансформацију података. Овој методи је потребно детаљно тестирање за сваки део кода.
Трошкови одржавања могу постати високи услед промена које се дешавају у пословним правилима (или) због шанси за добијање грешака са повећањем обима података. О метаподацима бисте требали водити рачуна у почетку, а такође и при свакој промени која се догоди у правилима трансформације.
# 2) Алати за трансформацију
Ако желите аутоматизовати већи део процеса трансформације, тада можете усвојити алате за трансформацију у зависности од буџета и временског оквира доступног за пројекат. Током аутоматизације требало би да потрошите време квалитетног одабира алата, конфигурисања, инсталирања и интегрисања у ДВ систем.
Практично потпуна трансформација са самим алатима није могућа без ручне интервенције. Али подаци које трансформишу алати су сигурно ефикасни и тачни.
Да бисмо то постигли, требали бисмо унијети одговарајуће параметре, дефиниције података и правила у алат за трансформацију као улаз. Из датих уноса, сам алат ће снимати метаподатке и ти метаподаци се додају у укупне ДВ метаподатке.
Ако постоје неке промене у пословним правилима, онда само унесите те промене у алат, за остале модификације трансформације побринут ће се сам алат. Отуда је комбинација обе методе ефикасна за употребу.
Учитавање података
Издвојени и трансформисани подаци се учитавају у циљне ДВ табеле током фазе учитавања ЕТЛ процеса. Посао одлучује како ће се поступак учитавања одвијати за сваку табелу.
Процес учитавања може се догодити на следеће начине:
- Почетно оптерећење: Учитавање података да би се први пут попуниле одговарајуће ДВ табеле.
- Додатно оптерећење: Једном када се учитају ДВ табеле, остатак текућих промена се примењује периодично.
- Потпуно освежавање: Ако било којој табели која се користи треба освежити, тада се тренутни подаци из те табеле у потпуности уклањају, а затим поново учитавају. Претовар је сличан почетном оптерећењу.
Погледајте доњи пример за боље разумевање процеса учитавања у ЕТЛ:
ИД производа | Назив производа | Датум продаје |
---|---|---|
један | Граматика | 3. јуна 2007 |
два | Маркер | 3. јуна 2007 |
3 | Назад торба | 4. јуна 2007 |
4 | Капа | 4. јуна 2007 |
5 | Ципеле | 5. јуна 2007 |
# 1) Током почетног учитавања подаци који се продају 3рдЈуни 2007. учитава се у ДВ циљну табелу јер су то почетни подаци из горње табеле.
#два) Током инкременталног учитавања треба да учитамо податке који се продају након 3рдЈун 2007. Требали бисмо узети у обзир све записе чији је датум продаје већи од (>) претходног датума за следећи дан. Отуда, 4тхЈун 2007. дохватите све записе са датумом продаје> 3рдЈуна 2007. помоћу упита и учитајте само она два записа из горње табеле.
Дана 5тхЈун 2007. дохватите све записе са датумом продаје> 4тхЈуна 2007. и учитајте само један запис из горње табеле.
# 3) Током потпуног освежавања, сви горњи подаци табеле се истовремено учитавају у ДВ табеле, без обзира на датум продаје.
Учитани подаци се чувају у одговарајућим табелама димензија (или) чињеница. Подаци се могу учитати, додати или спојити у ДВ табеле на следећи начин:
# 4) Оптерећење: Подаци се учитавају у циљну табелу ако је празна. Ако табела садржи неке податке, постојећи подаци се уклањају, а затим се учитавају новим подацима.
На пример,
Постојећи подаци табеле
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | Олово |
Боб | Помоћник директора |
Роналд | Програмер |
Промењени подаци
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Рохан | директор |
Цхетан | АВП |
Тхе | ВП |
Подаци након учитавања
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Рохан | директор |
Цхетан | АВП |
Тхе | ВП |
# 5) Додати: Додатак је продужетак горе наведеног оптерећења јер ради на већ постојећим табелама података. У циљним табелама, Аппенд додаје више података постојећим подацима. Ако се са улазним подацима пронађе било који дупликат записа, он се може додати као дупликат (или) можда ће бити одбијен.
На пример,
Постојећи подаци табеле
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | Олово |
Промењени подаци
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Рохан | директор |
Цхетан | АВП |
Тхе | ВП |
Подаци након додавања
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | Олово |
Рохан | директор |
Цхетан | АВП |
Тхе | ВП |
# 6) Деструктивно спајање: Овде се долазни подаци упоређују са постојећим циљним подацима на основу примарног кључа. Ако постоји подударање, тада се постојећи циљни запис ажурира. Ако није пронађено подударање, нови запис се убацује у циљну табелу.
На пример,
Постојећи подаци табеле
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | Олово |
Промењени подаци
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | директор |
Цхетан | АВП |
Тхе | ВП |
Подаци након конструктивног спајања
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | директор |
Цхетан | АВП |
Тхе | ВП |
# 7) Конструктивно иде: За разлику од деструктивног спајања, ако постоји подударање са постојећим записом, он оставља постојећи запис какав јесте и убацује долазни запис и означава га као најновији податак (временску ознаку) у односу на тај примарни кључ.
На пример,
Постојећи подаци табеле
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | Олово |
Промењени подаци
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | директор |
Цхетан | АВП |
Тхе | ВП |
Подаци након конструктивног спајања
име запосленог | Улога |
---|---|
Јохн | Менаџер |
Ревантх | Директор *** |
Ревантх | Олово |
Цхетан | АВП |
Тхе | ВП |
Технички, освежавање је лакше од ажурирања података. Ажурирању је потребна посебна стратегија за издвајање само одређених промена и њихово примењивање на ДВ систем, док Рефресх само замењује податке. Али освежавање података траје дуже времена у зависности од количине података.
Ако имате такве задатке освежавања за свакодневно покретање, тада ћете можда морати срушити ДВ систем да бисте учитали податке. Уместо да сваки пут срушите читав ДВ систем за учитавање података, податке можете поделити и учитати у облику неколико датотека.
Забележите време рада за свако оптерећење током тестирања. Ако било који податак не може да се учита у ДВ систем због било каквих неусклађености кључева итд., Онда им дајте начине за руковање таквом врстом података. Обавезно темељито тестирајте учитане податке.
Учитавање дијаграма тока:
Флат Филес
Равне датотеке се широко користе за размену података између хетерогених система, од различитих изворних оперативних система и од различитих система база података извора до апликација складишта података. Равне датотеке су најефикасније и њима је лако управљати и за хомогене системе.
Равне датотеке се углавном користе у следеће сврхе:
# 1) Испорука изворних података: Можда је мало изворних система који ДВ корисницима неће омогућити приступ њиховим базама података из безбедносних разлога. У таквим случајевима, подаци се достављају путем равних датотека.
Слично томе, подаци се добијају од спољних добављача или главних рачунара, углавном у облику равних датотека, а ЕТЛ корисници ће их ФТП-овима.
# 2) Радни / сценски столови: ЕТЛ процес ствара табеле за инсценацију за своју унутрашњу сврху. Асоцијација постављања табела са равним датотекама је много лакша од ДБМС-а, јер је читање и писање у систем датотека брже од уметања и постављања упита у базу података.
# 3) Припрема за расути терет: Када се заврше процеси екстракције и трансформације, ако ЕТЛ алат (или) не подржава масовно учитавање у току (или) Ако желите да архивирате податке, можете да направите равну датотеку. Процесор чита ове податке равне датотеке и учитава их у ДВ систем.
Равне датотеке могу се креирати на два начина као „равне датотеке фиксне дужине“ и „Разграничене равне датотеке“. Равне датотеке могу креирати програмери који раде за изворни систем.
Погледајмо како обрађујемо ове равне датотеке:
нови Ворлд оф Варцрафт приватни сервер
Обрада равних датотека фиксне дужине
Генерално, равне датотеке су колона фиксне дужине, па се стога називају и позиционе равне датотеке. Испод је распоред равне датотеке која приказује тачна поља и њихове положаје у датотеци.
Име поља | Дужина | Почетак | Крај | Тип | Коментари |
---|---|---|---|---|---|
Име | 10 | један | 10 | Текст | Име купца |
Средње име | 5 | Једанаест | петнаест | Текст | Средње име купца |
Презиме | 10 | 16 | 25 | Текст | Презиме купца |
Изглед садржи назив поља, дужина, почетна позиција на којој започиње знак поља, крајња позиција на којој се завршава знак поља, тип података као текст, нумерички итд. и коментари ако постоје.
У зависности од положаја података, тим за испитивање ЕТЛ-а потврдиће тачност података у равној датотеци фиксне дужине.
Обрада разграничених равних датотека
У раздвојеним равним датотекама свако поље података одвојено је граничницима. Овај граничник означава почетни и крајњи положај сваког поља. Генерално се зарез користи као граничник, али можете користити било који други симбол или скуп симбола.
Разграничене датотеке могу бити .ЦСВ екстензије (или) .ТКСТ екстензије (или) без екстензије. Програмери који креирају ЕТЛ датотеке назначиће стварни симбол граничника за обраду те датотеке. У размеђеном распореду датотека, први ред може представљати имена колона.
Исто као и код позиционих равних датотека, тим за испитивање ЕТЛ-а ће изричито потврдити тачност разграничених података равне датотеке.
Сврха сценског простора
Главна сврха простора за инсценацију је привремено складиштење података за ЕТЛ процес. Подручје упризорења назива се позадином за ДВ систем. Архитекта ЕТЛ одлучује да ли ће податке складиштити у фази постављања или не.
Поступак ће помоћи да се подаци из изворних система добију врло брзо. У исто време, у случају да ДВ систем закаже, тада не морате поново да започињете поступак прикупљањем података из изворних система ако подаци о инсценацији већ постоје.
Након процеса издвајања података, ево разлога за постављање података у ДВ систем:
# 1) Обновљивост: Напуњене табеле за инсценацију чуваће се у самој ДВ бази података (или), а могу се преместити у системе датотека и одвојено. У одређеном тренутку, инсценациони подаци могу деловати као подаци опоравка ако било који корак трансформације или учитавања не успе.
Могуће су шансе да је изворни систем преписао податке који се користе за ЕТЛ, па нам задржавање извучених података у фази постављања помаже у било којој референци.
# 2) Резервна копија: Тешко је повратити огромне количине табела ДВ базе података. Али резервне копије су неопходне за било који опоравак од катастрофе. Дакле, ако имате припремне податке који су извучени подаци, тада можете покренути послове за трансформацију и учитавање, чиме се срушени подаци могу поново учитати.
Да бисте направили резервну копију података за инсценацију, често можете да их преместите у системе датотека тако да их је лако компримовати и чувати у мрежи. Кад год је потребно, само распакујте датотеке, учитајте их у контролне табеле и покрените задатке да бисте поново учитали ДВ табеле.
# 3) Ревизија: Понекад се може догодити ревизија на ЕТЛ систему како би се проверила веза података између изворног система и циљног система. Ревизори могу извршити валидацију оригиналних улазних података према излазним подацима на основу правила трансформације.
Подаци о инсценацији и њихове резервне копије су веома корисни овде чак и ако изворни систем има доступне податке или не. Као што се ревизија може догодити у било које време и у било ком периоду садашњих (или) прошлих података. Архитектура простора за инсценацију треба да буде добро испланирана.
Дизајнирање сценског простора
У складишту података, подаци о сценском подручју могу се дизајнирати на следећи начин:
Са сваким новим учитавањем података у припремне табеле, постојећи подаци могу се избрисати (или) одржавати као историјски подаци за референцу. Ако се подаци избришу, тада се називају „Привременим сценским подручјем“.
Ако се подаци чувају као историја, тада се називају „Упорно подручје спремања“. Такође можете да дизајнирате сценско подручје комбинацијом горе поменуте две врсте, што је „хибрид“.
Ево основних правила која треба знати приликом дизајнирања простора за инсценацију:
- Само ЕТЛ тим треба да има приступ зони постављања података. Испитивање података о инсценацији ограничено је на друге кориснике.
- Архитекта података ЕТЛ може додати, изменити или испустити табеле у сценском подручју без укључивања других корисника. Како сценско подручје није подручје презентације за генерисање извештаја, оно само делује као радна површина.
- ЕТЛ архитекта би требало да процени меру складиштења података у фази припреме како би пружио детаље администраторима ДБА и ОС. Администратори ће доделити простор за постављање база података, система датотека, директоријума итд.
Ако област за инсценацију и база података ДВ користе исти сервер, онда можете лако преместити податке у ДВ систем. Ако су сервери различити, користите ФТП (или) везе до базе података.
Ток ЕТЛ процеса
Стандардни ЕТЛ циклус ће проћи кроз следеће кораке процеса:
- Започните ЕТЛ циклус да бисте покренули послове у низу.
- Уверите се да су сви метаподаци спремни.
- ЕТЛ циклус помаже у издвајању података из различитих извора.
- Потврдите издвојене податке.
- Ако се користе инсценационе табеле, тада ЕТЛ циклус учитава податке у инсценацију.
- ЕТЛ врши трансформације применом пословних правила, стварањем агрегата итд
- Ако дође до било каквих грешака, тада ће га ЕТЛ циклус обавестити у облику извештаја.
- Тада ЕТЛ циклус учитава податке у циљне табеле.
- Ранији подаци које треба сачувати за историјску референцу се архивирају.
- Остали подаци које није потребно чувати се чисте.
Дијаграм тока ЕТЛ процеса:
Закључак
У овом упутству смо сазнали о главним концептима ЕТЛ процеса у складишту података. До сада бисте требали бити у стању да схватите шта су екстракција података, трансформација података, учитавање података и ток ЕТЛ процеса.
Прочитајте предстојећи водич да бисте сазнали више о тестирању складишта података !!
=> Посетите овде за ексклузивну серију складиштења података.
Препоручено читање
- Водич за тестирање складишта података са примерима | ЕТЛ Водич за тестирање
- 10 најбољих алата за мапирање података корисних у ЕТЛ процесу (2021 ЛИСТ)
- Водич за тестирање складишта података ЕТЛ (комплетан водич)
- Рударство података: процес, технике и главни проблеми у анализи података
- Процес рударења података: Укључени модели, кораци процеса и изазови
- Питања и одговори за испитивање ЕТЛ-а
- Топ 10 ЕТЛ алата за тестирање 2021. године
- 10 најпопуларнијих алата за складиштење података и технологија за тестирање