frequent pattern growth algorithm data mining
Детаљан водич о алгоритму за раст честих образаца који представља базу података у облику ФП стабло. Укључује поређење ФП раста и априорија:
Априори алгоритам је детаљно објашњено у нашем претходном водичу. У овом упутству ћемо научити о учесталом расту узорка - ФП раст је начин ископавања честих скупова предмета.
која је маска подмреже за ип адресу класе б?
Као што сви знамо, Априори је алгоритам за често руковање узорцима који се фокусира на генерисање скупова предмета и откривање најчешћих скупова предмета. У великој мери смањује величину скупа ставки у бази података, међутим, Априори такође има своје недостатке.
Прочитајте кроз наш Читаве серије обуке за рударење подацима за потпуно познавање концепта.
Шта ћете научити:
- Недостаци алгоритма Априори
- Алгоритам честог раста узорка
- ФП Трее
- Чести кораци алгоритма узорка
- Пример алгоритма раста ФП-а
- Предности алгоритма раста ФП
- Мане алгоритма раста ФП
- ФП Гровтх вс Априори
- ЕЦЛАТ
- Закључак
- Препоручено читање
Недостаци алгоритма Априори
- Коришћење Априорија захтева генерацију скупова кандидата. Број ових ставки може бити велик ако је скуп предмета у бази података огроман.
- Априорију је потребно више скенирања базе података да би се проверила подршка сваког генерисаног скупа ставки, што доводи до високих трошкова.
Ови недостаци се могу превазићи коришћењем алгоритма раста ФП.
Алгоритам честог раста узорка
Овај алгоритам је побољшање Априоријеве методе. Генерише се чест образац без потребе за генерисањем кандидата. ФП алгоритам раста представља базу података у облику стабла које се назива често дрво узорка или ФП стабло.
Ова структура стабла ће одржавати повезаност између скупова предмета. База података је фрагментирана помоћу једне честе ставке. Овај фрагментирани део назива се „фрагмент узорка“. Анализирају се скупови предмета ових фрагментираних образаца. Тако се овом методом, претрага за честим скуповима предмета сразмерно смањује.
ФП Трее
Стабло учесталих узорака је структура налик стаблу која се прави са почетним скуповима предмета базе података. Сврха ФП стабла је минирање најчешћег узорка. Сваки чвор ФП стабла представља ставку скупа ставки.
Коријенски чвор представља нулу, док доњи чворови представљају скупове предмета. Повезивање чворова са доњим чворовима који су скупови предмета са осталим скуповима предмета одржавају се током формирања стабла.
Чести кораци алгоритма узорка
Метода раста честих образаца омогућава нам да пронађемо чест образац без генерисања кандидата.
Погледајмо кораке који су следећи за минирање честог узорка користећи алгоритам честог раста образаца:
# 1) Први корак је скенирање базе података како би се пронашли догађаји скупова предмета у бази података. Овај корак је исти као и први корак Априорија. Бројање скупова од 1 предмета у бази података назива се бројем подршке или учесталошћу скупа од 1 предмета.
#два) Други корак је конструисање ФП стабла. За ово створите корен стабла. Корен је представљен нулом.
# 3) Следећи корак је поновно скенирање базе података и испитивање трансакција. Испитајте прву трансакцију и сазнајте скуп предмета у њој. Скуп предмета са максималним бројем узима се на врху, следећи сет са мањим бројем и тако даље. То значи да је грана стабла конструисана са скуповима ставки трансакција у опадајућем редоследу бројања.
# 4) Испитује се следећа трансакција у бази података. Набори предмета су поредани у падајућем редоследу бројања. Ако је било који скуп предмета ове трансакције већ присутан у другој грани (на пример у 1. трансакцији), тада би ова грана трансакције имала заједнички префикс у корену.
То значи да је заједнички скуп предмета повезан са новим чвором другог скупа ставки у овој трансакцији.
# 5) Такође, број ставки се повећава како се јавља у трансакцијама. Број заједничких и нових чворова повећава се за 1 док се креирају и повезују у складу са трансакцијама.
# 6) Следећи корак је минирање створеног ФП стабла. За то се прво испитује најнижи чвор заједно са везама најнижих чворова. Најнижи чвор представља дужину узорка фреквенције 1. Од тога пређите путању у ФП стаблу. Ова путања или стазе називају се условном основом обрасца.
Условна база образаца је подбаза података која се састоји од путања префикса у ФП стаблу које се јављају са најнижим чвором (суфиксом).
Питања за интервју са селеном вебдривер-ом за четворогодишње искуство
# 7) Направите условно ФП стабло, које се формира бројем скупова предмета у путањи. Набори предмета који испуњавају подршку прага разматрани су у Условном ФП стаблу.
# 8) Учестали обрасци се генеришу из условног ФП стабла.
Пример алгоритма раста ФП-а
Праг подршке = 50%, поуздање = 60%
Табела 1
Трансакција | Списак предмета |
---|---|
Употреба меморије | |
Т1 | И1, И2, И3 |
Т2 | И2, И3, И4 |
Т3 | И4, И5 |
Т4 | И1, И2, И4 |
Т5 | И1, И2, И3, И5 |
Т6 | И1, И2, И3, И4 |
Решење:
Праг подршке = 50% => 0,5 * 6 = 3 => мин_суп = 3
1. Бројање сваке ставке
Табела 2
Предмет | Цоунт |
---|---|
И1 | 4 |
И2 | 5 |
И3 | 4 |
И4 | 4 |
И5 | два |
2. Сортирајте скуп предмета у падајућем редоследу.
Табела 3
Предмет | Цоунт |
---|---|
И2 | 5 |
И1 | 4 |
И3 | 4 |
И4 | 4 |
3. Изградити ФП дрво
- Узимајући у обзир нулу коренског чвора.
- Прво скенирање Трансакције Т1: И1, И2, И3 садржи три ставке {И1: 1}, {И2: 1}, {И3: 1}, где је И2 повезан као дете са кореном, И1 је повезан са И2 и И3 је повезан са И1.
- Т2: И2, И3, И4 садржи И2, И3 и И4, где је И2 повезан са кореном, И3 је повезан са И2, а И4 је повезан са И3. Али ова грана би делила И2 чвор онолико уобичајен колико се већ користи у Т1.
- Повећајте број И2 за 1 и И3 је повезан као дете са И2, И4 је повезан као дете са И3. Бројање је {И2: 2}, {И3: 1}, {И4: 1}.
- Т3: И4, И5. Слично томе, нова грана са И5 је повезана са И4 како се ствара дете.
- Т4: И1, И2, И4. Редослед ће бити И2, И1 и И4. И2 је већ повезан са основним чвором, па ће се повећати за 1. Слично томе, И1 ће бити увећан за 1, јер је већ повезан са И2 у Т1, дакле {И2: 3}, {И1: 2}, {И4: 1}.
- Т5: И1, И2, И3, И5. Редослед ће бити И2, И1, И3 и И5. Тако {И2: 4}, {И1: 3}, {И3: 2}, {И5: 1}.
- Т6: И1, И2, И3, И4. Редослед ће бити И2, И1, И3 и И4. Тако {И2: 5}, {И1: 4}, {И3: 3}, {И4 1}.
4. Рударство ФП-дрвета резимирано је у наставку:
- Ставка И5 са најнижим чвором се не узима у обзир јер нема минимални број подршке, па је стога избрисана.
- Следећи доњи чвор је И4. И4 се јавља у 2 гране, {И2, И1, И3:, И41}, {И2, И3, И4: 1}. Према томе, узимајући у обзир И4 као суфикс, стазе префикса ће бити {И2, И1, И3: 1}, {И2, И3: 1}. Ово чини условну основу обрасца.
- Условна база образаца сматра се базом података трансакција, конструира се ФП-стабло. Ово ће садржати {И2: 2, И3: 2}, И1 се не сматра јер не задовољава минимални број подршке.
- Ова путања ће генерисати све комбинације честих образаца: {И2, И4: 2}, {И3, И4: 2}, {И2, И3, И4: 2}
- За И3, путања префикса била би: {И2, И1: 3}, {И2: 1}, ово ће генерисати ФП-стабло са 2 чвора: {И2: 4, И1: 3} и генеришу се чести обрасци: {И2 , И3: 4}, {И1: И3: 3}, {И2, И1, И3: 3}.
- За И1, путања префикса би била: {И2: 4} ово ће генерисати ФП-стабло једног чвора: {И2: 4} и генеришу се чести обрасци: {И2, И1: 4}.
Предмет | Условна база образаца | Условно ФП-стабло | Генерирани чести обрасци |
---|---|---|---|
И4 | {И2, И1, И3: 1}, {И2, И3: 1} | {И2: 2, И3: 2} | {И2, И4: 2}, {И3, И4: 2}, {И2, И3, И4: 2} |
И3 | {И2, И1: 3}, {И2: 1} | {И2: 4, И1: 3} | {И2, И3: 4}, {И1: И3: 3}, {И2, И1, И3: 3} |
И1 | {И2: 4} | {И2: 4} | {И2, И1: 4} |
Дијаграм дат у наставку приказује условно ФП стабло повезано са условним чвором И3.
Предности алгоритма раста ФП
- Овај алгоритам треба да скенира базу података само два пута у поређењу са Априоријем који скенира трансакције за сваку итерацију.
- Упаривање ставки се не врши у овом алгоритму, што га чини бржим.
- База података се чува у компактној верзији у меморији.
- Ефикасан је и скалабилан за рударење како дугих, тако и кратких образаца.
Мане алгоритма раста ФП
- ФП Трее је гломазнији и теже се прави од Априорија.
- Можда је скупо.
- Када је база података велика, алгоритам се можда неће уклопити у заједничку меморију.
ФП Гровтх вс Априори
ФП Гровтх | Априори |
---|---|
Генерација узорака | |
ФП раст генерише образац конструисањем ФП стабла | Априори генерише узорак упаривањем предмета у појединачне, парове и тројке. |
Генерација кандидата | |
Не постоји генерација кандидата | Априори користи генерацију кандидата |
Процес | |
Процес је бржи у поређењу са Априоријем. Време извођења процеса линеарно се повећава са повећањем броја скупова предмета. | Процес је релативно спорији од раста ФП-а, време извођења се експоненцијално повећава са повећањем броја скупова предмета |
Сачувана је компактна верзија базе података | Комбинације кандидата чувају се у меморији |
ЕЦЛАТ
Горе наведени метод, раст Априори и ФП, минирају честе скупове предмета користећи хоризонтални формат података. ЕЦЛАТ је метода копања честих скупова предмета користећи вертикални формат података. Претвориће податке у хоризонталном формату података у вертикални формат.
На пример,Априори и ФП раст користе:
скл упити за вежбање са одговорима
Трансакција | Списак предмета |
---|---|
Т1 | И1, И2, И3 |
Т2 | И2, И3, И4 |
Т3 | И4, И5 |
Т4 | И1, И2, И4 |
Т5 | И1, И2, И3, И5 |
Т6 | И1, И2, И3, И4 |
ЕЦЛАТ ће имати формат табеле као:
Предмет | Трансацтион Сет |
---|---|
И1 | {Т1, Т4, Т5, Т6} |
И2 | {Т1, Т2, Т4, Т5, Т6} |
И3 | {Т1, Т2, Т5, Т6} |
И4 | {Т2, Т3, Т4, Т5} |
И5 | {Т3, Т5} |
Ова метода ће формирати скупове од 2 предмета, 3 скупа, к скупове предмета у вертикалном формату података. Овај поступак са к се повећава за 1 док се не пронађу скупови ставки кандидата. Уз Априори се користе неке технике оптимизације попут дифсета.
Ова метода има предност у односу на Априори јер не захтева скенирање базе података да би се пронашла подршка за к + 1 скупове предмета. То је зато што ће скуп трансакција садржати број појављивања сваке ставке у трансакцији (подршка). Уско грло долази када постоји много трансакција које одузимају огромну меморију и рачунарско време за пресецање скупова.
Закључак
Априори алгоритам се користи за правила удруживања рудника. Ради по принципу, „непразни подскупови учесталих скупова предмета такође морају бити чести“. Формира кандидате за к-итемсет из (к-1) скупова предмета и скенира базу података како би пронашао честе скупове предмета.
Алгоритам честог раста образаца је метода проналажења честих образаца без генерисања кандидата. Конструише ФП стабло уместо да користи стратегију генерисања и тестирања Априорија. Фокус алгоритма за раст ФП је на фрагментирању путања предмета и ископавању честих образаца.
Надамо се да су вам ови водичи из серије Дата Мининг обогатили ваше знање о Дата Мининг-у !!
ПРЕВ Туториал |. | ПРВИ Водич
Препоручено читање
- Технике рударства података: алгоритам, методе и врхунски алати за минирање података
- Априори алгоритам у рударству података: примена са примерима
- Примери алгоритма стабла одлука у рударству података
- Примери рударства података: Најчешћа примена рударства података 2021
- Рударство података: процес, технике и главни проблеми у анализи података
- Процес рударења података: Укључени модели, кораци процеса и изазови
- Узорак питања за испит за сертификацију за тестирање софтвера ЦСТЕ
- Рударство података против машинског учења против вештачке интелигенције против дубоког учења