complete guide big data analytics
Ово је свеобухватан водич за аналитику великих података са примерима употребе, архитектуром, примерима и поређењем са великим подацима и науком података:
Аналитика великих података стекла је снагу јер су корпорације попут Фацебоок-а, Гоогле-а и Амазон-а поставиле своје нове парадигме дистрибуиране обраде података и аналитике како би разумеле склоности својих купаца ка извлачењу вредности из великих података.
У овом упутству објашњавамо аналитику великих података и упоређујемо је са Биг Дата и Дата Сциенце. Покриваћемо неопходне атрибуте које предузећа морају да имају у својој стратегији великих података и методологији која функционише. Такође ћемо споменути најновије трендове и неке случајеве употребе аналитике података.
Као што је приказано на доњој слици, Аналитика захтева коришћење ИТ вештина, пословних вештина и науке о подацима. Аналитика великих података је у центру употребе вредности из великих података и помаже у извлачењу потрошних увида за организацију.
[слика извор ]
Шта ћете научити:
- Шта је аналитика великих података
- Биг Дата Вс Биг Дата Аналитика Вс Дата Сциенце
- Шта би свака стратегија Аналитике великих података требало да има
- Цјевовод података и поступак за аналитику података
- Архитектура аналитике великих података
- Тренутни трендови у аналитици података
- Употреба аналитике великих података
- Често постављана питања
- Закључак
Шта је аналитика великих података
Аналитика великих података бави се употребом збирке статистичких техника, алата и поступака аналитике за велике податке.
Препоручено Читање => Увод у велике податке
Аналитика је та која помаже у издвајању драгоцених образаца и значајних увида из великих података како би подржала доношење одлука вођених подацима. Велики број података и аналитика постали су популарни због појаве нових извора података као што су друштвени медији и ИоТ подаци.
Овај тренд ствара подручје праксе и студије под називом „наука о подацима“ која обухвата технике, алате, технологије и процесе за рударење података, чишћење, моделирање и визуелизацију.
Биг Дата Вс Биг Дата Аналитика Вс Дата Сциенце
ДО поређење између великих података, науке о подацима и аналитике великих података може се разумети из доње табеле.
Основа | Велики података | Дата Сциенце | Аналитика великих података |
---|---|---|---|
Алати и технологије | Екосистем Хадооп, ЦДХ, Цассандра, МонгоДБ, Јава, Питхон, Таленд, СКЛ, Рапид Минер | Р, Питхон, Јупитер, Дата Сциенце Воркбенцх, ИБМ СПСС, Таблеау | Искра, Олуја, Книме, Омотач података, Лумифи, ХПЦЦ, Куболе, Мицрософт ХДИнсигхт |
Радне улоге и вештине | Одржавање инфраструктуре за складиштење, обрада података и знање о Хадооп-у и његова интеграција са другим алатима. | Трансформација података, Инжењеринг података, Уређивање података, Моделовање података и Визуелизација | БИ и напредна аналитика, статистика, моделирање података и машинско учење, математичке вештине, комуникација, консалтинг. |
Ознаке | Архитекта великих података Програмер великих података Инжењер великих података | Дата Сциентист Инжењер машинског учења | Аналитичар великих података Пословни аналитичар Инжењер пословне интелигенције Стручњак за пословну аналитику Програмер за визуелизацију података Менаџер аналитике |
Приближно Просечна годишња зарада у УСД | 100.000 | 90.000 | 70.000 |
Предложено читање = >> Дата Сциенце вс Цомпутер Сциенце
Шта би свака стратегија Аналитике великих података требало да има
Добро дефинисана, интегрисана и свеобухватна стратегија доприноси и подржава драгоцено доношење одлука заснованих на подацима у организацији. У овом одељку смо навели најважније кораке које треба узети у обзир приликом дефинисања стратегије аналитике великих података.
Корак 1: Процена
Процена, која је већ усклађена са пословним циљевима, захтева укључивање кључних заинтересованих страна, стварање тима чланова са правим скупом вештина, процена политика, људи, процеса и средстава и технологије и података. Ако је потребно, у овај процес се могу укључити купци оцењених.
Корак 2: Одређивање приоритета
Након процене, потребно је извести случајеве употребе, дати им приоритет користећи предиктивну аналитику великих података, прескриптивну аналитику и когнитивну аналитику. Такође можете да користите алат као што је матрица за одређивање приоритета и даље филтрирате случајеве употребе уз помоћ повратних информација и података кључних актера.
Корак 3: РоадМап
У овом кораку потребно је направити временски ограничену путоказ и објавити је за све. Мапа пута треба да садржи све детаље у вези са сложеношћу, средствима, инхерентним предностима случајева употребе и мапираним пројектима.
Корак 4: Управљање променама
Имплементација управљања променама захтева управљање доступношћу података, интегритетом, сигурношћу и употребљивошћу. Ефикасан програм управљања променама, користећи било које постојеће управљање подацима, подстиче активности и чланове на основу континуираног праћења.
Корак 5: Десни сет вештина
Препознавање правог скупа вештина је пресудно за успех организације усред тренутних трендова у индустрији. Стога треба следити праве лидере и донети образовне програме за образовање критичних заинтересованих страна.
Корак 6: Поузданост, скалабилност и сигурност
Прави приступ и ефикасна стратегија аналитике великих података чине аналитички процес поузданим, уз ефикасну употребу интерпретабилних модела који укључују принципе науке о подацима. Стратегија аналитике великих података такође мора укључити аспекте безбедности од самог почетка за робустан и чврсто интегрисан цевовод аналитике.
Цјевовод података и поступак за аналитику података
Када планирате цевовод за аналитику података, три су основна аспекта која треба узети у обзир. То су следећи:
- Улазни: Формат података и избор технологије за обраду, заснива се на основној природи података, тј. да ли су подаци временске серије и квалитет.
- Излаз: Избор конектора , извештаји и визуализација зависе од техничке стручности крајњих корисника и њихових захтева за потрошњом података.
- Обим: Решења за скалирање планирају се на основу обима података како би се избегло преоптерећење система за обраду великих података.
Сада ћемо разговарати о типичном процесу и фазама за цевовод за анализу великих података.
Фаза 1: Уношење података
Унос података је први и најзначајнији корак у цевоводу података. Разматра три аспекта података.
- Извор података - Значајно је у погледу избора архитектуре цевовода за велике податке.
- Структура података - Серијализација је кључ за одржавање хомогене структуре на цевоводу.
- Чистоћа података - Аналитика је добра као и подаци без проблема као што су недостајуће вредности, одступања итд.
Фаза 2: ЕТЛ / Складиштење
Следећи важан модул су алати за складиштење података за извођење ЕТЛ (Ектрацт Трансформ Лоад). Складиштење података у одговарајућем дата центру зависи од,
- Хардвер
- Стручност управљања
- Буџет
[слика извор ]
Неки временски тестирани алати за ЕТЛ / складиштење у дата центрима су:
- Апацхе Хадооп
- Апацхе Хиве
- Апацхе Паркет
- Престо Куери енгине
Компаније у облаку попут Гоогле-а, АВС-а, Мицрософт Азуре-а пружају ове алате по принципу плаћања и штеде почетне капиталне трошкове.
Фаза 3: Аналитика и визуелизација
Узимајући у обзир ограничења Хадоопа на брзо постављање упита, потребно је користити аналитичке платформе и алате који омогућавају брзо и ад-хоц постављање упита са потребном визуелизацијом резултата.
>> Препоручена литература: Алати за велике податке
Фаза 4: Мониторинг
Пошто постављате инфраструктуру за уношење, складиштење и аналитику помоћу алата за визуелизацију, следећи корак је имати ИТ и алате за надгледање података за надгледање. Ови укључују:
- Употреба ЦПУ-а или ГПУ-а
- Потрошња меморије и ресурса
- Мреже
Неки алати о којима вреди размислити су:
- Датадог
- Графана
Алати за праћење су неопходни у цевоводу за анализу великих података и помажу у надгледању квалитета и интегритета цевовода.
Архитектура аналитике великих података
Дијаграм архитектуре у наставку показује како савремене технологије користе и неструктуриране и структуриране изворе података за обраду Хадооп & Мап-смањење, аналитичке системе у меморији и аналитику у реалном времену да би донеле комбиноване резултате за операције у реалном времену и доношење одлука.
[слика извор ]
Тренутни трендови у аналитици података
У овом одељку смо навели основне аспекте које треба тражити приликом примене или праћења трендова аналитике великих података у индустрији.
# 1) Велики извори података
Постоје првенствено три извора великих података. Они су наведени испод:
- Подаци о друштвеним мрежама: Подаци генерисани због употребе друштвених медија. Ови подаци помажу у разумевању осећања и понашање купаца и може бити корисна у маркетиншкој аналитици.
- Подаци о машини: Ови подаци се узимају из индустријске опреме и апликација помоћу ИоТ сензора. Помаже у разумевању људи понашање и пружа увид у процеси .
- Подаци о трансакцијама: Генерише се као резултат ванмрежних и мрежних активности корисника у вези са налозима за плаћање, рачунима, признаницама итд. Већина ове врсте података треба предобрада и чишћење пре него што се може користити за аналитику.
# 2) СКЛ / НоСКЛ складиштење података
У поређењу са традиционалним базама података или РДБМС, НоСКЛ базе података показале су се бољим за задатке потребне за аналитику великих података.
НоСКЛ базе података саме по себи могу прилично добро да се баве неструктурираним подацима и нису ограничене на скупе модификације шеме, вертикално скалирање и ометање АЦИД својстава.
# 3) Предиктивна аналитика
Предицтиве Аналитицс нуди прилагођене увиде који воде организације да генеришу нове одговоре купаца или куповине и могућности унакрсне продаје. Организације користе предиктивну аналитику да би предвиђале појединачне елементе на грануларном нивоу да би предвиделе будуће исходе и спречиле потенцијалне проблеме. Ово се даље комбинује са историјским подацима и претвара у прескриптивну аналитику.
Неке области у којима се аналитика предиктивног коришћења великих података успешно користи су пословање, заштита деце, системи за подршку клиничким одлукама, предвиђање портфеља, предвиђања на економском нивоу и преузимање.
# 4) Дубоко учење
Велики подаци су огромни за конвенционално рачунање. Испоставило се да се традиционалне технике машинског учења анализе података поравнавају у перформансама са повећањем разноликости и обима података.
Аналитика се суочава са изазовима у вези са варијацијама формата, високо дистрибуираним улазним изворима, неуравнотеженим улазним подацима и брзим протоком података, а алгоритми дубоког учења прилично се ефикасно носе са таквим изазовима.
Дубинско учење пронашло је ефикасну употребу у семантичком индексирању, извођењу дискриминативних задатака, семантичкој слици и видео означавању, друштвеном циљању, као и у хијерархијским приступима на више нивоа у областима препознавања предмета, означавања података, проналажења информација и природног језика обрада.
# 5) Језера података
Похрањивање различитих скупова података у различитим системима и њихово комбиновање за аналитику са традиционалним приступима управљања подацима показују се скупим и готово неизводљивим. Због тога организације праве Дата Лакес, која податке чувају у свом сировом, изворном формату за ефикасну аналитику.
Слика испод приказује пример језера података у архитектури великих података.
[слика извор ]
Употреба аналитике великих података
У наставку смо навели неке од најчешћих случајева употребе:
# 1) Аналитика купаца
Аналитика великих података корисна је у различите сврхе, као што су микро маркетинг, појединачни маркетинг, финија сегментација и масовно прилагођавање клијентима предузећа. Предузећа могу створити стратегије за персонализацију својих производа и услуга у складу са склоностима купаца да повећају или унакрсну продају сличан или другачији асортиман производа и услуга.
# 2) Аналитика рада
Оперативна аналитика помаже у побољшању целокупног доношења одлука и пословних резултата искоришћавањем постојећих података и обогаћивањем машинским и ИоТ подацима.
На пример, Аналитика великих података у здравству омогућила је суочавање са изазовима и новим могућностима повезаним са оптимизацијом здравствене заштите, побољшањем праћења клиничких испитивања, предвиђањем и планирањем одговора на епидемије болести као што је ЦОВИД-19.
# 3) Спречавање превара
Аналитика великих података види се с потенцијалом да донесе велику корист помажући у предвиђању и смањењу покушаја превара, пре свега у финансијском и осигурању.
На пример, Осигуравајуће компаније у реалном времену прикупљају податке о демографији, заради, медицинским захтевима, трошковима адвоката, времену, снимцима гласа клијента и белешкама цалл центра. Одређени детаљи у реалном времену помажу у извлачењу предиктивних модела комбиновањем горе поменутих података са историјским подацима како би се рано идентификовале шпекулиране лажне тврдње.
# 4) Оптимизација цена
Компаније користе аналитику великих података да би повећале профитне марже проналажењем најбоље цене на нивоу производа, а не на нивоу категорије. Велике компаније сматрају сувише поразним да би добиле детаљне детаље и сложеност променљивих цена, које се редовно мењају за хиљаде производа.
Стратегија оптимизације цена заснована на аналитици, попут динамичког бодовања послова, омогућава компанијама да одреде цене кластера производа и сегмената на основу својих података и увида на појединачним нивоима послова како би постигле брзу победу од захтевних клијената.
Често постављана питања
П # 1) Да ли је аналитика великих података добра каријера?
Одговор: Додата је вредност свакој организацији, омогућавајући јој да доноси информисане одлуке и пружајући предност над конкуренцијом. Потез у каријери Биг Дата повећава вам шансе да постанете кључни доносилац одлука у организацији.
П # 2) Зашто је аналитика великих података важна?
Одговор: Помаже организацијама да створе нове могућности за раст и потпуно нове категорије производа који могу комбиновати и анализирати индустријске податке. Ове компаније имају довољно информација о производима и услугама, купцима и добављачима, преференцијама потрошача које се могу ухватити и анализирати.
П # 3) Шта је потребно за аналитику великих података?
Одговор: Спектар технологија са којима добар аналитичар великих података мора бити упознат је огроман. Да би неко савладао аналитику великих података, потребно је разумевање различитих алата, софтвера, хардвера и платформи. На пример, Табеле, СКЛ упити и Р / Р Студио и Питхон су неки од основних алата.
На нивоу предузећа, алати попут МАТЛАБ, СПСС, САС и Цонгнос су важни уз Линук, Хадооп, Јава, Сцала, Питхон, Спарк, Хадооп и ХИВЕ.
Циљ питања:
П # 4) Која од доленаведених база података није НоСКЛ база података?
- МонгоДБ
- ПостгреСКЛ
- ЦоуцхДБ
- ХБасе
Одговор: ПостгреСКЛ
П # 5) Да ли је Цассандра НоСКЛ?
- Истинито
- Нетачно
Одговор: Истинито
П # 6) Шта од наведеног није власништво Хадооп-а?
како репродуковати уторрент датотеку
- Отвореног кода
- Заснован на Јави
- Дистрибуирана обрада
- Реалном времену
Одговор: Реалном времену
П # 7) Изаберите све активности које НЕ обавља научник података.
- Изградите моделе машинског учења и побољшајте њихове перформансе.
- Евалуација статистичких модела за потврђивање анализа
- Резимирајте напредне анализе помоћу алата за визуелизацију података
- Презентација резултата техничке анализе интерним тимовима и пословним клијентима
Одговор: Презентација резултата техничке анализе интерним тимовима и пословним клијентима
Даље читање = >> Кључне разлике између Дата Аналист и Дата Сциентист
П # 8) Које активности обавља аналитичар података?
- Очистите и организујте сирове податке
- Проналажење занимљивих трендова у подацима
- креирајте контролне табле и визуелизације за једноставну интерпретацију
- Све наведено
Одговор: Све наведено
П # 9) Шта од следећег изводи инжењер података?
- Интеграција нових извора података у постојећи цевовод за аналитику података
- Развој АПИ-ја за потрошњу података
- праћење и тестирање система за континуиране перформансе
- Све наведено
Одговор: Све наведено
П # 10) Тачан редослед протока података за аналитику је
- Извори података, Припрема података, Трансформација података, Дизајн алгоритма, Анализа података
- Извори података, Трансформација података, Дизајн алгоритма, Припрема података, Анализа података
- Извори података, Дизајн алгоритма, Припрема података, Трансформација података, Анализа података
- Извори података, Припрема података, Дизајн алгоритма, Трансформација података, Анализа података
Одговор: Извори података, Припрема података, Трансформација података, Дизајн алгоритма, Анализа података
П # 11) Анализа података је линеарни процес.
- Истинито
- Нетачно
Одговор: Нетачно
П # 12) Истраживачка анализа НИЈЕ
- Одговор детаљна почетна питања за анализу података
- Утврдите проблеме са скупом података
- Развити скицу одговора на питање
- Утврдите да ли су подаци тачни за одговор на питање
Одговор: Одговордетаљна почетна питања за анализу података
П # 13) Питање за предвиђање је друго име које се даје Инференцијалном питању.
- Истинито
- Нетачно
Одговор: Нетачно
Закључак
Покрили смо најважније аспекте аналитике великих података. Објаснили смо најраспрострањеније случајеве употребе и трендове у индустрији аналитике великих података како бисмо добили максималне користи.
Препоручено читање
- 7 најбољих НАЈБОЉИХ компанија за аналитику података у 2021. години [ажурирана листа 2021.]
- 15 најбољих алата за велике податке (Алати за аналитику великих података) у 2021
- 10 најбољих алата за анализу података за савршено управљање подацима [2021 ЛИСТ]
- 10 најбољих алата за науку о подацима у 2021. години за уклањање програмирања
- Водич за велике податке за почетнике | Шта су велики подаци?
- Топ 13 најбољих компанија за велике податке из 2021
- 10 најбољих алата за моделирање података за управљање сложеним дизајном
- 10+ најбољих алата за управљање подацима који ће испунити ваше потребе за подацима 2021