top 24 data modeling interview questions with detailed answers
Списак најчешће постављаних питања и одговора за моделирање података који ће вам помоћи да се припремите за предстојећи интервју:
Овде ћу поделити неколико питања о интервјуу за моделирање података и детаљне одговоре на основу мог властитог искуства током интеракција са интервјуима у неколико познатих ИТ МНЦ-а.
Одговори испод питања могу вам бити од велике помоћи ако будете имали прилику да се суочите или направите интервју о моделирању података.
Најчешће постављана питања о интервјуу за моделирање података
Почнимо!
П # 1) Шта разумете под моделовањем података?
Одговор: Моделирање података је дијаграмски приказ који показује како су ентитети међусобно повезани. То је почетни корак ка дизајнирању базе података. Прво креирамо концептуални модел, затим логички модел и на крају прелазимо на физички модел.
Генерално се модели података креирају у фази анализе и дизајнирања животног циклуса развоја софтвера.
К # 2) Објасните своје разумевање различитих модела података?
Одговор: Постоје три врсте модела података - концептуални, логички и физички. Ниво сложености и детаља расте од концептуалног до логичког до физичког модела података.
Концептуални модел показује врло основни високи ниво дизајна, док физички модел података показује врло детаљан приказ дизајна.
- Концептуални модел биће само приказ имена ентитета и односа ентитета. Слика 1 приказана у каснијем делу овог чланка приказује концептуални модел.
- Логички модел приказиват ће имена ентитета, односе ентитета, атрибуте, примарне кључеве и стране кључеве у сваком ентитету. Слика 2 приказана унутар питања бр. 4 у овом чланку приказује логични модел.
- Физички модел података ће приказивати примарне кључеве, стране кључеве, имена табела, имена колона и типове података колона. Овај поглед заправо објашњава како ће се модел заиста применити у бази података.
К # 3) Баците мало светла на своје искуство у моделирању података у вези са пројектима на којима сте до данас радили?
Белешка: Ово је било прво питање у једном од мојих интервјуа за моделирање података. Дакле, пре него што уђете у разговор о интервјуу, требали бисте имати врло јасну слику о томе како се моделирање података уклапа у задатке на којима сте радили.
Одговор: Радио сам на пројекту за компанију здравственог осигурања где имамо уграђене интерфејсе Рад на рачунару која трансформише и обрађује податке преузете из базе података Фацетс и шаље корисне информације добављачима.
Белешка: Фасети су крајње решење за управљање свим информацијама за здравствену индустрију. База података о аспектима у мом пројекту креирана је помоћу СКЛ сервера 2012.
Имали смо различите ентитете који су били повезани заједно. Ти ентитети су били претплатник, члан, пружалац здравствених услуга, захтев, рачун, упис, група, подобност, план / производ, провизија, капитација итд.
Испод је концептуални модел података који показује како је пројекат изгледао на високом нивоу
Слика 1:
Сваки од ентитета података има своје атрибуте података. На пример, атрибут података добављача биће идентификациони број даваоца, неколико атрибута података чланства биће ИД претплатника, ИД члана, један од атрибута података захтева ће полагати ИД, сваки здравствени производ или план имаће јединствени ИД производа и ускоро.
П # 4) Које су различите шеме дизајна у моделирању података? Објасните сапример?
Одговор: Постоје две различите врсте шема у моделирању података
- Звездан распоред
- Шема пахуљица
Сада ћу објаснити сваку од ових шема једну по једну.
Најједноставнија од шема је звездана шема где у центру имамо табелу чињеница која упућује на више табела димензија око ње. Све табеле димензија повезане су са табелом чињеница. Примарни кључ у свим табелама димензија делује као страни кључ у табели чињеница.
Тхе ИС дијаграм (види слику 2) ове шеме подсећа на облик звезде и зато је ова шема именована као шема звезде.
Слика 2:
Шема звезда је прилично једноставна, флексибилна и у нормализованом је облику.
У схеми пахуљица, ниво нормализације се повећава. Табела чињеница овде остаје иста као у шеми звезда. Међутим, табеле димензија су нормализоване. Због неколико слојева табела димензија, изгледа као пахуљица па је стога названа шемом пахуљице.
априори алгоритам у рударству података са примером
Слика 3:
П # 5) Коју шему сте користили у свом пројекту и зашто?
П # 6) Која шема је боља - звезда или пахуљица?
Одговор: (Комбиновано за К # 5 и 6): Избор шеме увек зависи од пројектних захтева и сценарија.
Будући да је шема звезда у нормализованом облику, за упит вам је потребно мање придруживања. Упит је једноставан и ради брже у звезданој шеми. Долазећи до шеме пахуљице, с обзиром да је у нормализованом облику, захтеваће већи број спајања у поређењу са шемом звезда, упит ће бити сложен, а извршавање ће бити спорије од шеме звезде.
Још једна значајна разлика између ове две шеме је та што шема пахуљица не садржи сувишне податке и самим тим је једноставна за одржавање. Супротно томе, звездана шема има висок ниво сувишности и стога је тешко одржавати.
шпијунски софтвер за стављање на мобилни телефон
Сада, коју одабрати за свој пројекат? Ако је сврха вашег пројекта да уради више анализе димензија, требало би да одаберете шему пахуљица. На пример, ако то требате сазнати „Колико претплатника је везано за одређени план који је тренутно активан?“ - иди са моделом пахуљице.
Ако је сврха вашег пројекта да изврши више метричке анализе, требало би да користите шему звезда. На пример, ако то требате сазнати „Који је износ потраживања плаћен одређеном претплатнику?“ - иди са шемом звезда.
У мом пројекту смо користили шему пахуљица јер смо морали да направимо анализу у неколико димензија и генеришемо резиме извештаје за предузеће. Још један разлог за употребу шеме пахуљица је што је мања потрошња меморије.
П # 7) Шта разумете под димензијом и атрибутом?
Одговор: Димензије представљају квалитативне податке. На пример, план, производ, класа су све димензије.
Табела димензија садржи описне или текстуалне атрибуте. На пример, категорија производа и назив производа су атрибути димензије производа.
П # 8) Шта је табела чињеница и чињеница?
Одговор: Чињенице представљају квантитативне податке.
На пример, нето дужни износ је чињеница. Табела чињеница садржи нумеричке податке и стране кључеве из сродних табела димензија. Пример табеле чињеница може се видети са горе приказане слике 2.
П # 9) Које су различите врсте димензија на које сте наишли? Сваком од њих детаљно објаснити пример?
Одговор: Типично постоји пет врста димензија.
а) Усаглашене димензије : Димензија која се користи као део различитих подручја назива се усаглашена димензија. Може се користити са различитим табелама чињеница у једној бази података или на бројним мартовима података / складиштима.
На пример, ако је претплатничка димензија повезана са две табеле чињеница - обрачуном и потраживањем, тада би се претплатничка димензија третирала као усклађена димензија.
б) Јунк Дименсион : То је табела димензија која садржи атрибуте којима није место у табели чињеница или у било којој од тренутних табела димензија. Обично , то су својства попут заставица или индикатора.
На пример, то може бити застава подобности члана постављена као „И“ или „Н“ или било који други показатељ постављен као тачно / нетачно, било који одређени коментар итд. Ако све такве атрибуте индикатора задржимо у табели чињеница, тада се његова величина повећава. Тако , ми комбинујемо све такве атрибуте и стављамо табелу са једном димензијом која се назива нежељена димензија са јединственим ИД-овима смећа са могућом комбинацијом свих вредности индикатора.
ц) Димензија играња улога : Ово су димензије које се користе у више сврха у истој бази података.
На пример, димензија датума се може користити за „Датум потраживања“, „Датум обрачуна“ или „Датум истека плана“. Тако , таква димензија ће се назвати димензија играња улога. Примарни кључ димензије Дате биће повезан са више страних кључева у табели чињеница.
д) Полако мењање димензија (СЦД): То су најважније међу свим димензијама. То су димензије у којима вредности атрибута варирају с временом. Испод су различите врсте СЦД
- Тип 0: То су димензије у којима вредност атрибута остаје стабилна током времена. На пример, Претплатнички ДОБ је СЦД типа 0, јер ће увек остати исти без обзира на време.
- Тип 1: То су димензије у којима се претходна вредност атрибута замењује тренутном вредношћу. У димензији Тип-1 се не одржава историја. На пример, Адреса претплатника (где предузеће захтева да задржи једину тренутну адресу претплатника) може бити димензија Тип 1.
- Тип 2: То су димензије у којима се чува неограничена историја. На пример, Адреса претплатника (где предузеће захтева вођење евиденције свих претходних адреса претплатника). У овом случају, у табелу ће бити уметнуто више редова за претплатника са његовим различитим адресама. Постоје неке колоне које ће идентификовати тренутну адресу. На пример, „Датум почетка“ и „Датум завршетка“. Редак у коме ће вредност „Датум завршетка“ бити празна садржаће тренутну адресу претплатника, а сви остали редови ће имати претходне адресе претплатника.
- Тип 3: То су оне димензије у којима се чува ограничена историја. И користимо додатну колону за одржавање историје. На пример, Адреса претплатника (тамо где предузеће захтева вођење евиденције о тренутној и само једној претходној адреси). У овом случају колону „адреса“ можемо растворити у две различите колоне - „тренутна адреса“ и „претходна адреса“. Дакле, уместо да имамо више редова, имаћемо само један ред који приказује тренутну, као и претходну адресу претплатника.
- Тип 4: У овој врсти димензија, историјски подаци су сачувани у посебној табели. Табела главних димензија садржи само тренутне податке. На пример, главна табела димензија имаће само један ред по претплатнику који држи тренутну адресу. Све остале претходне адресе претплатника чуваће се у засебној табели историје. Ова врста димензија се ретко користи.
е) Изрођена димензија: Изрођена димензија је димензија која није чињеница, али је у табели чињеница представљена као примарни кључ. Нема своју табелу димензија. Можемо је назвати и као једну табелу димензија атрибута.
Али , уместо да га држимо одвојено у табели димензија и ставимо додатно спајање, овај атрибут стављамо директно у табелу чињеница као кључ. Будући да нема своју табелу димензија, никада не може деловати као страни кључ у табели чињеница.
П # 10) Дајте своју идеју у вези са чињеницама без чињеница? А зашто га користимо?
Одговор: Табела чињеница је чињеница која у себи не садржи меру чињеница. У њему су само тастери за димензије.
Понекад се у послу могу појавити одређене ситуације у којима треба да имате табелу чињеница.
На пример, претпоставимо да одржавате систем евиденције о присуству запослених, можете имати табелу чињеница без чињеница која има три кључа.
Број запосленог |
ИД_одсека |
ИД_времена |
Можете видети да горња табела не садржи ниједну меру. Сада, ако желите да одговорите на питање у наставку, то можете лако да урадите користећи горњу једну табелу чињеница без чињеница, уместо да имате две одвојене табеле чињеница:
„Колико је запослених у одређеном одељењу било присутно одређеног дана?“
Дакле, табела чињеница без чињеница нуди флексибилност дизајну.
П # 11) Разликовати ОЛТП и ОЛАП?
Одговор: ОЛТП је скраћеница за Систем за обраду мрежних трансакција & ОЛАП је скраћеница за Систем аналитичке обраде на мрежи . ОЛТП одржава пословне податке о трансакцијама и генерално је високо нормализован. Супротно томе, ОЛАП је намењен анализи и извештавању и у нормализованом је облику.
Ова разлика између ОЛАП-а и ОЛТП-а такође вам даје начин за одабир дизајна шеме. Ако је ваш систем ОЛТП, требало би да користите дизајн звездане шеме, а ако је ваш систем ОЛАП, требало би да користите шему пахуљица.
П # 12) Шта разумете под дата мартом?
Одговор: Дата мартови су углавном намењени усамљеној грани пословања. Дизајнирани су за поједина одељења.
На пример, Некада сам радио за компанију која је пружала услуге здравственог осигурања и која је имала различите одељења попут финансија, извештавања, продаје и тако даље.
Имали смо складиште података у којем су се налазиле информације које се односе на сва ова одељења, а затим имамо мало података који су изграђени на врху овог складишта података. Ови ДатаМарт су били специфични за свако одељење. Једноставним речима можете рећи да је ДатаМарт подскуп складишта података.
П # 13) Које су различите врсте мера?
Одговор: Имамо три врсте мера, наиме
- Неадитивне мере
- Полуадитивне мере
- Адитивне мере
Неадитивне мере су оне на којима се не може применити функција агрегације. На пример, однос или процентуална колона; заставица или колона индикатора присутна у табели у ствари која садржи вредности попут Д / Н, итд. је неадитивна мера.
Полуадитивне мере су оне поврх којих се могу применити неке (али не све) функције агрегације. На пример, стопа накнаде или стање на рачуну.
Адитивне мере су оне на којима се могу применити све функције агрегације. На пример, купљене јединице.
П # 14) Шта је сурогат кључ? По чему се разликује од примарног кључа?
Одговор: Замјенски кључ је јединствени идентификатор или системски генерирани кључ секвенци који може дјеловати као примарни кључ. То може бити колона или комбинација колона. За разлику од примарног кључа, он се не преузима из постојећих поља података апликације.
П # 15) Да ли је тачно да би све базе података требале бити у 3НФ?
Одговор: Није обавезно да база података буде у 3НФ. Међутим , ако је ваша сврха лако одржавање података, мање сувишности и ефикасан приступ, онда би требало да користите денормализовану базу података.
П # 16) Да ли сте икада наишли на сценарио рекурзивних веза? Ако је одговор да, како сте то поднели?
Одговор: Рекурзивни однос се јавља у случају када је ентитет повезан сам са собом. Да, наишао сам на такав сценарио.
Говорећи о домену здравствене заштите, постоји могућност да је здравствени радник (рецимо лекар) пацијент било ког другог здравственог радника. Јер , ако се лекар разболи и треба му операција, мораће да посети другог лекара ради хируршког лечења.
Тако , у овом случају, ентитет - пружалац здравствене заштите повезан је са собом. Страни кључ броја даваоца здравственог осигурања мораће да буде наведен у евиденцији сваког пацијента.
П # 17) Наведите неколико најчешћих грешака које су се догодиле током моделирања података?
Одговор: Неколико уобичајених грешака на које је наишло током моделирања података су:
- Изградња масивних модела података : Велики модели података воле да имају више грешака у дизајну. Покушајте да ограничите свој модел података на највише 200 табела.
- Недостатак сврхе : Ако не знате за шта је намењено ваше пословно решење, можда ћете доћи до нетачног модела података. Јасност пословне сврхе је веома важна за постизање правог модела података.
- Неприкладна употреба сурогат кључева : Сурогат кључ не треба користити непотребно. Користите сурогат кључ само када природни кључ не може служити циљу примарног кључа.
- Непотребна денормализација : Не денормализујте све док и ако за то немате чврст и јасан пословни разлог, јер денормализација ствара сувишне податке које је тешко одржавати.
П # 18) Који је број подређених табела које се могу креирати из једне надређене табеле?
Одговор: Број подређених табела које се могу креирати из једне надређене табеле једнак је броју поља / колона у надређеној табели која нису кључеви.
П # 19) Давалац здравствене заштите сакрива детаље о здрављу запосленика од свог послодавца. О којем нивоу скривања података је реч? Концептуални, физички или спољни?
Одговор: Ово је сценарио спољног нивоа скривања података.
П # 20) Какав је облик табеле чињеница и табеле димензија?
Одговор: Генерално, табела чињеница је у нормализованом облику, а табела димензија је у нормализованом облику.
П # 21) Које детаље бисте требали да бисте осмислили концептуални модел у пројекту здравствене заштите?
најбољи системски оптимизатор за Виндовс 10
Одговор: За пројекат здравствене заштите, доњи детаљи били би довољни да се изради основни концептуални модел
- Различите категорије здравствених планова и производа.
- Врста претплате (групна или појединачна).
- Скуп здравствених радника.
- Преглед поступка потраживања и обрачуна.
П # 22) Лукаво: Ако се на колону примени јединствено ограничење, да ли ће она избацити грешку ако покушате да у њу уметнете две нуле?
Одговор: Не, у овом случају неће доћи до грешке, јер је нулл вредност неједнака другој нулл вредности. Дакле, у колону ће се без грешке уметнути више од нуле.
П # 23) Можете ли навести пример ентитета подтипа и супертипа?
Одговор: Да, рецимо да имамо ове различите целине - возило, аутомобил, бицикл, економични аутомобил, породични аутомобил, спортски аутомобил.
Овде је возило супер-тип ентитета. Аутомобил и бицикл су његови подтипови. Даље, економични аутомобили, спортски аутомобили и породични аутомобили су подтипови његових супертипова.
Ентитет супертипа је онај који је на вишем нивоу. Ентитети подтипа су они који се групишу на основу одређених карактеристика. На пример, сви бицикли су двоточкаши, а сви аутомобили четвороточкаши. А пошто су оба возила, тако је и њихов супертип ентитета „возило“.
П # 24) Који је значај метаподатака?
Одговор: Метаподаци су подаци о подацима. Говори вам који се подаци заправо чувају у систему, која је њихова сврха и коме су намењени.
Закључак
- Практично разумевање Моделирање података Концепт и како се уклапа у задатке које сте урадили пријеко је потребан за разбијање интервјуа за моделирање података.
- Најчешће постављане теме у Моделирање података интервју су - различите врсте модела података, врсте шема, врсте димензија и нормализација.
- Будите добро припремљени и за питања заснована на сценарију.
Предложио бих да кад год одговарате на питање анкетару, боље је да идеју објасните на примеру. То би показало да сте заправо радили на том подручју и да врло добро разумете срж концепта.
Све најбоље!!