data mining techniques
Овај детаљни водич о техникама рударења података објашњава алгоритме, алате за рударење података и методе за издвајање корисних података:
У ово Водичи за обуку за дубинско рударење података за све , истражили смо све о Дата Минингу у нашем претходном водичу.
У овом упутству ћемо научити о разним техникама које се користе за издвајање података. Као што знамо да је истраживање података концепт издвајања корисних информација из огромне количине података, неке технике и методе се примењују на велике скупове података како би се издвојиле корисне информације.
Ове технике су у основи у облику метода и алгоритама који се примењују на скупове података. Неке од техника рударења подацима укључују Рудање честих образаца, удруживања и корелација, класификација, груписање, откривање одступања и неке напредне технике попут статистичког, визуелног и аудио претраживања података.
Генерално, релационе базе података, трансакционе базе података и складишта података користе се за технике рударења подацима. Међутим, постоје и неке напредне технике рударства за сложене податке као што су временске серије, симболичке секвенце и биолошки секвенцијални подаци.
Шта ћете научити:
- Сврха техника рударења подацима
- Списак техника извлачења података
- Врхунски алгоритми за рударење подацима
- Методе издвајања података
- Врхунски алати за рударење подацима
- Закључак
- Препоручено читање
Сврха техника рударења подацима
Пошто се свакодневно чува огромна количина података, предузећа су сада заинтересована да на основу њих сазнају трендове. Технике екстракције података помажу у претварању сирових података у корисно знање. За ископавање огромних количина података потребан је софтвер, јер је човеку немогуће ручно проћи кроз велику количину података.
Софтвер за рударење подацима анализира однос између различитих ставки у великим базама података који могу помоћи у процесу доношења одлука, сазнати више о купцима, занатским маркетиншким стратегијама, повећати продају и смањити трошкове.
Списак техника извлачења података
Техника претраживања података која ће се применити зависи од перспективе наше анализе података.
веб локација за претварање ИоуТубе видео записа у мп3
Дакле, разговарајмо о различитим техникама како се извлачење података може изводити на различите начине:
# 1) Честа анализа руда / удруживања
Ова врста технике претраживања података тражи понављајуће везе у датом скупу података. Потражиће занимљиве асоцијације и корелације између различитих ставки у бази података и идентификовати образац.
Пример, такве врсте, била би „Анализа корпе за куповину“: откривање „које производе купци вероватно купују заједно у продавници?“ као што су хлеб и путер.
Апликација: Дизајнирање пласмана производа на полицама продавница, маркетинг, унакрсна продаја производа.
Обрасци се могу представити у облику правила удруживања. Правило удруживања каже да су подршка и самопоуздање параметри за откривање корисности повезаних предмета. Трансакције у којима су оба предмета купљена у једном потезу познати су као подршка.
Трансакције у којима су купци купили оба предмета, али један за другим, представљају самопоуздање. Ископани узорак би се сматрао занимљивим ако има минимални праг подршке и минимални праг поузданости вредност. О граничним вредностима одлучују стручњаци домена.
Хлеб => путер (подршка = 2%, поуздање-60%)
Горња изјава је пример правила удруживања. То значи да постоји трансакција од 2% која је заједно купила хлеб и путер, а 60% купаца је купило хлеб као и путер.
Кораци за примену анализе удруживања:
- Проналажење честих скупова предмета. Скуп предмета означава скуп предмета. Скуп предмета који садржи к предмета је к-скуп предмета. Учесталост скупа предмета је број трансакција које садрже скуп предмета.
- Генерирање јаких правила придруживања из честих скупова предмета. Под јаким правилима удруживања подразумевамо да је задовољен минимални праг подршке и самопоуздања.
Постоје разни чести начини руковања ставкама као што су Априори алгоритам, Приступ расту узорка и Рударство помоћу вертикалног формата података. Ова техника је позната под називом Анализа тржишних корпи.
# 2) Анализа корелације
Анализа корелације је само продужетак правила придруживања. Понекад параметри подршке и поверења могу и даље давати незанимљиве обрасце корисницима.
Пример који поткрепљује горњу изјаву може бити: од 1000 анализираних трансакција, 600 је садржало само хлеб, док је 750 садржало маслац, а 400 и хлеб и путер. Претпоставимо да је минимална подршка за покретање правила придруживања 30%, а минимална поузданост 60%.
Вредност подршке од 400/1000 = 40% и вредност поузданости = 400/600 = 66% испуњава праг. Међутим, видимо да је вероватноћа куповине путера 75%, што је више од 66%. То значи да су хлеб и путер у негативној корелацији, јер би куповина једног довела до смањења куповине другог. Резултати обмањују.
Из горњег примера, подршка и самопоуздање су допуњени још једном мером занимљивости, тј. Анализом корелације која ће помоћи у ископавању занимљивих образаца.
основна ц ++ питања за интервју
А => Б (подршка, самопоуздање, корелација).
Правило корелације мери се подршком, поуздањем и корелацијом између скупова А и Б. Корелација се мери Лифт-ом и Хи-квадратом.
(ја дижем: Као што сама реч каже, Лифт представља степен у којем присуство једног скупа предмета подиже појаву других скупова предмета.
Повећање између појаве А и Б може се мерити:
Подигните (А, Б) = П (А У Б) / П (А). П (Б).
Ако је<1, then A and B are negatively correlated.
Ако је> 1. Тада су А и Б позитивно повезани, што значи да појава једног подразумева појаву другог.
Ако је = 1, онда између њих не постоји повезаност.
(ии) Хи-квадрат: Ово је још једна корелациона мера. Он мери квадратну разлику између посматране и очекиване вредности за слот (А и Б пар) подељене очекиваном вредношћу.
Ако је> 1, онда је у негативној корелацији.
# 3) Класификација
Класификација помаже у изградњи модела важних класа података. Модел или класификатор су конструисани за предвиђање ознака класа. Ознаке су дефинисане класе са дискретним вриједностима попут „да“ или „не“, „сигурно“ или „ризично“. То је врста учења под надзором, јер је настава с етикетама већ позната.
Класификација података је процес у два корака:
- Корак учења: Модел је овде конструисан. Унапред дефинисани алгоритам примењује се на податке за анализу уз предвиђену ознаку класе и граде се правила класификације.
- Корак класификације: Модел се користи за предвиђање ознака класа за дате податке. Тачност правила класификације процењује се подацима теста који се, уколико се утврде тачним, користе за класификацију нових корпица података.
Ставке у скупу ставки биће додељене циљним категоријама за предвиђање функција на нивоу ознаке класе.
Апликација: Банке да идентификују подносиоце захтева за кредит као ниског, средњег или високог ризика, предузећа која креирају маркетиншке кампање на основу класификације старосних група.`
# 4) Индукција стабла одлучивања
Метода индукције стабала за одлучивање спада у класификациону анализу. Стабло одлуке је структура налик дрвету која је лако разумљива и једноставна и брза. У томе, сваки чвор који није лист представља тест атрибута и свака грана представља резултат теста, а чвор листа представља ознаку класе.
Вредности атрибута у корпици тестирају се на стаблу одлука од корена до чвора листа. Стабла одлучивања су популарна јер не захтевају никакво знање из домена. Они могу представљати вишедимензионалне податке. Стабла одлука могу се лако претворити у правила класификације.
Апликација: Стабла одлучивања граде се у медицини, производњи, производњи, астрономији итд. Пример се може видети у наставку:
# 5) Баиесова класификација
Баиесова класификација је још један метод класификационе анализе. Баиесови класификатори предвиђају вероватноћу да датој корпици припада одређена класа. Заснован је на Баиесовој теореми која се заснива на теорији вероватноће и одлуке.
Баиесова класификација делује на задњу вероватноћу и претходну вероватноћу за процес доношења одлука. Постериорном вероватноћом хипотеза се прави на основу дате информације, тј. Вредности атрибута су познате, док су за претходну вероватноћу хипотезе дате без обзира на вредности атрибута.
# 6) Анализа кластера
То је техника раздвајања скупа података у кластере или групе објеката. Груписање се врши помоћу алгоритама. То је врста учења без надзора, јер подаци о етикетама нису познати. Методе груписања идентификују податке који су међусобно слични или се разликују и врши се анализа карактеристика.
Кластер анализа може се користити као претходни корак за примену разних других алгоритама као што су карактеризација, одабир подскупа атрибута итд. Анализа кластера такође се може користити за откривање ванземаљаца као што су велике куповине у трансакцијама кредитним картицама.
Апликације: Препознавање слика, веб претрага и сигурност.
# 7) Откривање ванземаљаца
Процес проналажења објеката података који се понашају изузетно од осталих објеката назива се откривање изванредних података. Откривање и анализа кластера међусобно су повезани. Изузетније методе су категорисане на статистичке, на основу близине, на основу кластера и на основу класификације.
Постоје различите врсте одступања, неке од њих су:
- Глобал Оутлиер: Објекат података је значајно одступао од остатка скупа података.
- Контекстуални оутлиер: Зависи од одређених фактора као што су дан, време и локација. Ако објекат података значајно одступа у односу на контекст.
- Колективни Оутлиер: Када се група објеката података понаша другачије од целокупног скупа података.
Апликација: Откривање ризика од преваре на кредитним картицама, откривање новина итд.
# 8) Секвенцијални обрасци
Тренд или неки доследни обрасци препознају се у овој врсти претраживања података. Разумевање понашања купаца и секвенцијални обрасци продавнице користе за излагање својих производа на полицама.
Апликација: Пример е-трговине где када купујете ставку А, показат ће да се ставка Б често купује са ставком А гледајући на прошлу историју куповине.
# 9) Анализа регресије
Ова врста анализе се надгледа и идентификује који су скупови предмета међу различитим односима повезани или независни једни од других. Може предвидети продају, профит, температуру, предвидети људско понашање итд. Има вредност скупа података која је већ позната.
модел животног циклуса у софтверском инжењерству
Када се обезбеди улаз, алгоритам регресије упоредиће улаз и очекивану вредност, а грешка се израчунава да би се дошло до тачног резултата.
Апликација: Поређење напора за маркетинг и развој производа.
Врхунски алгоритми за рударење подацима
Технике рударства података примењују се кроз алгоритме који стоје иза њих. Ови алгоритми раде на софтверу за извлачење података и примењују се на основу пословне потребе.
Неки од алгоритама које организације широко користе за анализу скупова података дефинисани су у наставку:
- К-значи: То је популарна техника кластер анализе где се група сличних предмета групише заједно.
- Априори алгоритам: Честа је техника рударања скупова предмета и на њу се примењују правила придруживања на трансакционим базама података. Откриваће честе скупове предмета и истицати опште трендове.
- К Најближи сусед: Ова метода се користи за класификацију и регресиону анализу. Најближи сусед је лење учење где чува податке о обуци и кад дођу нови необележени подаци, класификоваће улазне податке.
- Баиес бродови: То је група једноставних алгоритама вероватноће класификације који претпостављају да су обе карактеристике објекта података независне од других. То је примена Баиесове теореме.
- АдаБоост: То је мета-алгоритам за машинско учење који се користи за побољшање перформанси. Адабоост је осетљив на бучне податке и одступања.
Методе издвајања података
Неке напредне методе рударења података за руковање сложеним типовима података објашњене су у наставку.
Подаци у данашњем свету су различитих врста, од једноставних до сложених података. За минирање сложених типова података, као што су временске серије, вишедимензионални, просторни и мултимедијски подаци, потребни су напредни алгоритми и технике.
Неки од њих су описани у наставку:
- КЛИК: То је била прва метода кластеровања која је пронашла кластере у вишедимензионалном потпростору.
- П3Ц: То је добро позната метода груписања за умерене до високе вишедимензионалне податке.
- ЈЕЗЕРО: То је метода заснована на к-средствима намењена груписању података умерене до високе димензије. Алгоритам раздваја податке на к дисјунктни скуп елемената уклањањем могућих одступања.
- УВАЈАЛИЦА: То је алгоритам груписања корелација, уочава и линеарне и нелинеарне корелације.
Врхунски алати за рударење подацима
Алати за рударење података су софтвер који се користи за минирање података. Алати покрећу алгоритме на позадини. Ови алати су доступни на тржишту у облику отвореног кода, бесплатног софтвера и лиценциране верзије.
Неки од алата за издвајање података укључују:
# 1) РапидМинер
РапидМинер је софтверска платформа отвореног кода за аналитичке тимове која обједињује припрему података, машинско учење и примену предиктивног модела. Овај алат се користи за провођење анализе података и израду модела података. Има велике скупове за класификацију, кластерисање, рударство правила удруживања и алгоритме регресије.
# 2) наранџаста
То је алат отвореног кода који садржи пакет за визуелизацију и анализу података. Наранџаста се може увести у било које радно окружење питона. Погодан је за нове истраживаче и мале пројекте.
# 3) ЈЕЗИК
КЕЕЛ (Издвајање знања засновано на еволуцијском учењу) је отворени извор ( ГПЛв3 ) Јава софтверски алат који се може користити за велики број различитих задатака откривања података о знању.
# 4) СПСС
ИБМ СПСС Моделер је ИБМ-ова софтверска апликација за рударење података и анализу текста. Користи се за изградњу предиктивних модела и спровођење других аналитичких задатака.
# 5) КНИМ
То је бесплатан алат отвореног кода који садржи пакет за чишћење и анализу података, специјализоване алгоритме у областима анализе расположења и анализе друштвених мрежа. КНИМЕ може интегрисати податке из различитих извора у исту анализу. Има интерфејс са Јава, Питхон и Р програмирањем.
Важно питање: По чему се класификација разликује од предвиђања?
Класификација је груписање података. Пример класификације је груписање на основу старосне групе, здравственог стања итд. Док предвиђање доноси резултат помоћу класификованих података.
Пример Предицтиве Аналисис предвиђа интересе на основу старосне групе, лечења због здравственог стања. Предвиђање је познато и као процена за континуиране вредности.
Важан појам: Предиктивно рударство података
Предиктивно истраживање података врши се ради предвиђања или предвиђања одређених трендова података користећи пословну интелигенцију и друге податке. Помаже предузећима да имају бољу аналитику и доносе боље одлуке. Предиктивна аналитика се често комбинује са предиктивним минирањем података.
Предиктивно истраживање података проналази релевантне податке за анализу. Предиктивна аналитика користи податке за предвиђање исхода.
Закључак
У овом упутству смо разговарали о разним техникама рударења података које организацијама и предузећима могу помоћи да пронађу најкорисније и најрелевантније информације. Ове информације се користе за стварање модела који ће предвидети понашање купаца како би предузећа на њих реаговала.
Читајући све горе поменуте информације о техникама рударења података, још се боље може утврдити њихова веродостојност и изводљивост. Технике извлачења података укључују рад са подацима, преобликовање података, реструктурирање података. Формат потребних информација заснива се на техници и анализи коју треба обавити.
На крају, све технике, методе и системи за руковање подацима помажу у откривању нових креативних иновација.
ПРЕВ Туториал |. | СЛЕДЕЋА Лекција
Препоручено читање
- Рударство података: процес, технике и главни проблеми у анализи података
- 10 најбољих алата за моделирање података за управљање сложеним дизајном
- Топ 15 најбољих бесплатних алата за рударење података: Најопсежнија листа
- 10+ најбољих алата за прикупљање података са стратегијама прикупљања података
- 10 најбољих алата за дизајн базе података за изградњу сложених модела података
- 10+ најбољих алата за управљање подацима који ће испунити ваше потребе за подацима 2021
- Дата Мининг вс Мацхине Леарнинг вс Артифициал Интеллигенце вс Дееп Леарнинг
- 14 најбољих НАЈБОЉИХ алата за управљање подацима 2021