data mining process models
Овај водич о процесу рударства података покрива моделе, кораке и изазове који се укључују у процес издвајања података:
Технике рударења подацима су детаљно објашњени у нашем претходном упутству у овоме Комплетна обука за рударење подацима за све . Дата Мининг је перспективно поље у свету науке и технологије.
Рударство података, које је познато и као Откривање знања у базама података, је процес откривања корисних информација из великих количина података ускладиштених у базама података и складиштима података. Ова анализа се ради за процесе доношења одлука у предузећима.
Ископавање података врши се помоћу различитих техника као што су кластерисање, повезивање и секвенцијална анализа узорака и стабло одлучивања.
Шта ћете научити:
- Шта је рударење података?
- Издвајање података као процес
- Модели за рударење подацима
- Кораци у процесу рударења података
- Процес рударења података у Орацле ДБМС
- Процес рударења података у складишту података
- Које су примене издвајања података?
- Изазови у рударству података
- Закључак
- Препоручено читање
Шта је рударење података?
Дата Мининг је процес откривања занимљивих образаца и знања из велике количине података. Извори података могу укључивати базе података, складишта података, мрежу и друга спремишта информација или податке који се динамички преносе у систем.
Зашто је предузећима потребно издвајање података?
Појавом великих података, рударење података је постало све заступљеније. Велики подаци су изузетно велики скупови података које рачунари могу анализирати како би открили одређене обрасце, асоцијације и трендове које људи могу разумети. Велики подаци садрже опсежне информације о различитим врстама и разноврсном садржају.
Стога са овом количином података једноставне статистике са ручном интервенцијом не би успеле. Ову потребу испуњава процес рударења података. То доводи до промене од једноставне статистике података до сложене алгоритме за рударење подацима.
Процес рударења података извући ће релевантне информације из сирових података као што су трансакције, фотографије, видео снимци, равне датотеке и аутоматски обрађивати информације како би се створили извештаји корисни за предузимање акција у предузећима.
Стога је процес рударења података пресудан за предузећа да донесу боље одлуке откривањем образаца и трендова у подацима, резимирањем података и изношењем релевантних информација.
Издвајање података као процес
Било који пословни проблем ће испитати необрађене податке како би створио модел који ће описати информације и изнети извештаје које ће предузеће користити. Изградња модела из извора података и формата података је итеративни процес, јер су необрађени подаци доступни у много различитих извора и у многим облицима.
Подаци се повећавају из дана у дан, па кад се пронађе нови извор података, то може променити резултате.
Испод је преглед процеса.
(слика извор )
Модели за рударење подацима
Многе индустрије попут производње, маркетинга, хемијске и ваздухопловне индустрије користе предности рударења подацима. Тако се драстично повећава потражња за стандардним и поузданим процесима рударења подацима.
Важни модели рударења подацима укључују:
# 1) Међуиндустријски стандардни поступак за рударење података (ЦРИСП-ДМ)
ЦРИСП-ДМ је поуздан модел рударења подацима који се састоји од шест фаза. То је циклични процес који пружа структурирани приступ процесу рударења подацима. Шест фаза се може применити у било ком редоследу, али понекад ће бити потребно враћање на претходне кораке и понављање радњи.
испитивање базе података питања и одговори за искусне
Шест фаза ЦРИСП-ДМ укључује:
# 1) Разумевање посла: У овом кораку постављају се циљеви предузећа и откривају важни фактори који ће помоћи у постизању циља.
# 2) Разумевање података: Овај корак ће прикупити целокупне податке и попунити их у алат (ако користите било који алат). Подаци су наведени са извором података, локацијом, начином прикупљања и проблемом. Подаци се визуализују и траже како би се проверила њихова потпуност.
# 3) Припрема података: Овај корак укључује одабир одговарајућих података, чишћење, конструкцију атрибута из података, интегрисање података из више база података.
# 4) Моделовање: У овом кораку се врши избор технике руковања подацима, као што је стабло одлука, генерирање теста за процену изабраног модела, израда модела из скупа података и процена изграђеног модела са стручњацима како би се разговарало о резултатима.
# 5) Процена: Овај корак ће одредити у којој мери резултујући модел испуњава пословне захтеве. Процена се може извршити тестирањем модела на стварним апликацијама. Модел се прегледава ради евентуалних грешака или корака које треба поновити.
# 6) Примена: У овом кораку је направљен план примене, формирана је стратегија за надгледање и одржавање резултата модела рударења података како би се проверила његова корисност, сачињени коначни извештаји и преглед целокупног процеса како би се проверила грешка и видело да ли се било који корак понавља .
(слика извор )
# 2) СЕММА (узорак, истраживање, модификација, модел, процена)
СЕММА је још једна методологија за руковање подацима коју је развио САС Институт. Скраћеница СЕММА значи узорак, истраживање, модификација, моделирање, процена.
СЕММА олакшава примену истраживачких статистичких техника и техника визуелизације, одабир и трансформацију значајних предвиђених променљивих, стварање модела помоћу променљивих да би се добило резултат и проверу његове тачности. СЕММА је такође вођен изузетно итеративним циклусом.
Кораци у СЕММА
- Узорак: У овом кораку извлачи се велики скуп података и вади узорак који представља пуне податке. Узорковање ће смањити рачунске трошкове и време обраде.
- Истражите: Подаци се истражују у случају било каквих одступања и аномалија ради бољег разумевања података. Подаци се визуелно проверавају како би се утврдили трендови и групирања.
- Модификовати: У овом кораку манипулација подацима као што је груписање и подгруписање врши се задржавањем у фокусу модела који ће се градити.
- Модел: На основу истраживања и модификација, конструишу се модели који објашњавају обрасце у подацима.
- Проценити: Корисност и поузданост конструисаног модела процењују се у овом кораку. Овде се врши тестирање модела на основу стварних података.
И СЕММА и ЦРИСП приступ раде на процесу откривања знања. Једном када се модели изграде, они се примењују за предузећа и истраживачки рад.
Кораци у процесу рударења података
Процес рударења података подељен је у два дела, тј. Обрада података и рударење подацима. Обрада података укључује чишћење података, интеграцију података, смањење података и трансформацију података. Део за рударење података врши рударење података, процену узорака и представљање података.
наведите и објасните најмање две ствари које можете постићи тестирањем софтвера за безбедносна питања.
(слика извор )
Зашто податке обрађујемо унапред?
Много је фактора који одређују корисност података као што су тачност, потпуност, доследност, благовременост. Подаци морају бити квалитетни ако задовољавају предвиђену сврху. Стога је предобрада пресудна у процесу рударења подацима. У наставку су објашњени главни кораци који су укључени у предобраду података.
# 1) Чишћење података
Чишћење података је први корак у претраживању података. Важно је јер прљави подаци ако се користе директно у рударству могу изазвати забуну у процедурама и произвести нетачне резултате.
У основи, овај корак укључује уклањање бучних или непотпуних података из колекције. Доступне су многе методе које обично чисте податке саме по себи, али нису робусне.
Овај корак обавља рутински посао чишћења:
(и) Попуните недостајуће податке:
Подаци који недостају могу се попунити методама као што су:
- Не обазирући се на корпицу.
- Ручно попуњавање вредности која недостаје.
- Користите меру централне тенденције, медијану или
- Попуњавање највероватније вредности.
(ии) Уклоните бучне податке: Случајна грешка назива се бучни подаци.
Методе за уклањање буке су:
Биннинг: Методе спајања се примењују сортирањем вредности у сефове или канте. Заглађивање се врши консултовањем суседних вредности.
Спајање се врши заглађивањем канте, тј. Свака канта се замењује средином канте. Заглађивање медијаном, при чему се свака вриједност бина замјењује бин медијаном. Изравнавање границама канте, тј. Минималне и максималне вредности у канти су границе канте и свака вредност канте замењује се најближом границом.
- Идентификовање крајњих вредности
- Отклањање недоследности
# 2) Интеграција података
Када се за анализу комбинују вишеструки хетерогени извори података, као што су базе података, коцке података или датотеке, овај процес се назива интеграција података. Ово може помоћи у побољшању тачности и брзине процеса рударења подацима.
Различите базе података имају различите конвенције именовања променљивих, узрокујући вишкове у базама података. Додатно чишћење података може се извршити како би се уклонили вишкови и недоследности из интеграције података без утицаја на поузданост података.
Интеграција података може се извршити помоћу алата за миграцију података као што су Орацле Дата Сервице Интегратор и Мицрософт СКЛ итд.
# 3) Смањење података
Ова техника се примењује за добијање релевантних података за анализу из прикупљања података. Величина представништва је знатно мања по обиму уз одржавање интегритета. Смањење података врши се методама као што су Наиве Баиес, Дрвеће одлука, Неуронска мрежа итд.
Неке стратегије смањења података су:
- Смањење димензија: Смањивање броја атрибута у скупу података.
- Смањење броја: Замена оригиналног обима података мањим облицима представљања података.
- Компресија података: Компримовани приказ оригиналних података.
# 4) Трансформација података
У овом процесу подаци се трансформишу у облик погодан за процес рударења података. Подаци се обједињују тако да је процес рударства ефикаснији и обрасци су лакши за разумевање. Трансформација података укључује процес мапирања података и генерирања кода.
Стратегије за трансформацију података су:
- Заглађивање: Уклањање шума из података помоћу кластера, техника регресије итд.
- Агрегација: Резиме операције се примењују на податке.
- Нормализација: Скалирање података спада у мањи опсег.
- Дискретизација: Неразрађене вредности нумеричких података замењују се интервалима. На пример, Старост.
# 5) Дата Мининг
Дата Мининг је поступак за идентификовање занимљивих образаца и знања из велике количине података. У овим корацима примењују се интелигентни обрасци за издвајање образаца података. Подаци су представљени у облику образаца, а модели су структурирани коришћењем техника класификације и кластерисања.
# 6) Процена узорка
Овај корак укључује идентификовање занимљивих образаца који представљају знање на основу мера занимљивости. Методе резимирања и визуализације података користе се како би подаци били разумљиви корисницима.
# 7) Представљање знања
Представљање знања је корак где се визуелизација података и алати за представљање знања користе за представљање минираних података. Подаци се визуализују у облику извештаја, табела итд.
Процес рударења података у Орацле ДБМС
РДБМС представља податке у облику табела са редовима и колонама. Подацима се може приступити писањем упита базе података.
Релативни системи за управљање базама података, као што је Орацле, подржавају рударење података помоћу ЦРИСП-ДМ. Опрема Орацле базе података корисна је у припреми и разумевању података. Орацле подржава рударење података путем јава интерфејса, ПЛ / СКЛ интерфејса, аутоматизованог рударења подацима, СКЛ функција и графичког корисничког интерфејса.
Процес рударења података у складишту података
Складиште података моделирано је за вишедимензионалну структуру података која се назива коцка података. Свака ћелија у коцки података чува вредност неких агрегатних мера.
Ископавање података у вишедимензионалном простору изведено у ОЛАП стилу (мрежна аналитичка обрада) где омогућава истраживање више комбинација димензија на различитим нивоима гранулације.
Које су примене издвајања података?
Списак подручја у којима се рударство података широко користи укључује:
користећи ецлипсе за ц ++
# 1) Анализа финансијских података: Дата Мининг се широко користи у банкарству, инвестицијама, кредитним услугама, хипотеци, аутомобилским кредитима и услугама осигурања и улагања у залихе. Подаци прикупљени из ових извора су потпуни, поуздани и висококвалитетни. Ово олакшава систематску анализу података и рударење подацима.
# 2) Малопродајна и телекомуникациона индустрија: Сектор малопродаје прикупља огромне количине података о продаји, историји куповине купаца, превозу робе, потрошњи и услугама. Истраживање података о малопродаји помаже у идентификовању понашања купаца при куповини, образаца и трендова куповине купаца, побољшању квалитета корисничке услуге, бољем задржавању купаца и задовољству.
# 3) Наука и инжењерство: Рачунарске науке и инжењеринг за руковање подацима могу помоћи у праћењу статуса система, побољшању перформанси система, изоловању програмских грешака, откривању софтверског плагијаризма и препознавању системских кварова.
# 4) Откривање и спречавање упада: Упад је дефинисан као било који скуп радњи који угрожавају интегритет, поверљивост или доступност мрежних ресурса. Методе претраживања података могу помоћи у систему за откривање и спречавање упада да побољша његове перформансе.
# 5) Системи препоручивача: Системи препоручивача помажу потрошачима давањем препорука за производе који су од интереса за кориснике.
Изазови у рударству података
У наставку су наведени различити изазови који су укључени у Дата Мининг.
- Дата Мининг требају велике базе података и прикупљање података којима је тешко управљати.
- Процес рударења података захтева стручњаке домена које је опет тешко наћи.
- Интеграција из хетерогених база података сложен је процес.
- Потребно је изменити праксе на организационом нивоу како би се користили резултати претраживања података. Реструктурирање процеса захтева напор и трошкове.
Закључак
Дата Мининг је итеративни процес у коме се процес рударства може усавршити, а нови подаци могу интегрисати како би се постигли ефикаснији резултати. Дата Мининг испуњава захтеве ефикасне, скалабилне и флексибилне анализе података.
Може се сматрати природном проценом информационе технологије. Као процес откривања знања, задаци припреме података и рударења података довршавају процес рударења подацима.
Процеси рударења података могу се изводити на било којој врсти података као што су подаци базе података и напредним базама података као што су временске серије итд. Процес рударења података такође има своје изазове.
Пратите наш предстојећи водич да бисте сазнали више о примерима рударења података !!
ПРЕВ Туториал |. | СЛЕДЕЋА Лекција
Препоручено читање
- Рударство података: процес, технике и главни проблеми у анализи података
- Технике рударства података: алгоритам, методе и врхунски алати за минирање података
- 10 најбољих алата за мапирање података корисних у ЕТЛ процесу (2021 ЛИСТ)
- 10 најбољих алата за дизајн базе података за изградњу сложених модела података
- Рударство података против машинског учења против вештачке интелигенције против дубоког учења
- Топ 15 најбољих бесплатних алата за рударење података: Најопсежнија листа
- Тест концепт, процес и стратегија управљања подацима
- ЈМетер параметризација података коришћењем кориснички дефинисаних променљивих