apriori algorithm data mining
Детаљни водич о Априори алгоритму за проналажење честих скупова предмета у рударству података. Овај водич објашњава кораке у априорију и како то функционише:
У ово Туториал Сериес за рударење подацима , погледали смо Алгоритам стабла одлучивања у нашем претходном упутству.
Постоји неколико метода за рударење података као што су удруживање, корелација, класификација и кластеризација.
иоутубе то мп4 фаст фрее онлине
Овај водич се првенствено фокусира на рударство користећи правила придруживања. Правилима удруживања идентификујемо скуп предмета или атрибута који се заједно јављају у табели.
Шта ћете научити:
- Шта је сет предмета?
- Зашто често копање скупова предмета?
- Методе за побољшање ефикасности априорија
- Примене Априори алгоритма
- Закључак
Шта је сет предмета?
Скуп предмета заједно назива се скуп предмета. Ако било који скуп предмета има к-ставке, назива се к-ставка. Скуп предмета састоји се од две или више ставки. Скуп предмета који се често јавља назива се честим скупом предмета. Стога је често руковање скупом ставки техника рударења података за идентификацију предмета који се често јављају заједно.
На пример , Хлеб и путер, софтвер за лаптоп и антивирус итд.
Шта је чест скуп предмета?
Скуп предмета назива се честим ако задовољава минималну граничну вредност за подршку и самопоуздање. Подршка приказује трансакције са предметима купљеним заједно у једној трансакцији. Повјерење показује трансакције у којима се предмети купују један за другим.
За учестали метод руковања ставкама узимамо у обзир само оне трансакције које испуњавају минималне захтеве за подршку и поузданост. Увиди из ових алгоритама рударства нуде пуно предности, смањење трошкова и побољшану конкурентску предност.
Потребно је време замене података за минирање и обим података за често рударење. Чести алгоритам рударства је ефикасан алгоритам за минирање скривених образаца скупова предмета у кратком времену и уз мању потрошњу меморије.
Рудање честих образаца (ФПМ)
Алгоритам честог узорковања узорака једна је од најважнијих техника претраживања података за откривање веза између различитих ставки у скупу података. Ови односи су представљени у облику правила удруживања. Помаже у проналажењу неправилности у подацима.
ФПМ има много апликација у области анализе података, софтверских грешака, унакрсног маркетинга, анализе продајних кампања, анализе тржишне корпе итд.
Чести скупови предмета откривени путем Априорија имају много апликација у задацима рударења података. Задаци као што су проналажење занимљивих образаца у бази података, откривање редоследа и рударство правила придруживања најважнији су од њих.
Правила удруживања примењују се на податке о трансакцијама у супермаркету, односно на испитивање понашања купаца у погледу купљених производа. Правила удруживања описују колико често се предмети купују заједно.
Правила удруживања
Удружење правила рудовања дефинисано је као:
„Нека И = {…} буде скуп‘ н ’бинарних атрибута који се називају ставке. Нека је Д = {….} Скуп трансакција која се назива база података. Свака трансакција у Д има јединствени ИД трансакције и садржи подскуп ставки у И. Правило је дефинисано као импликација облика Кс-> И где Кс, И? И и Кс? И = ?. Скуп ставки Кс и И назива се претходним, односно следбеним правилом. “
Учење правила придруживања користи се за проналажење односа између атрибута у великим базама података. Правило придруживања, А => Б, биће у облику „за скуп трансакција нека вредност скупа ставки А одређује вредности скупа ставки Б под условом у којем су задовољене минимална подршка и поверење“.
Подршка и поверење могу се представити следећим примером:
Bread=> butter [support=2%, confidence-60%]
Горња изјава је пример правила удруживања. То значи да постоји трансакција од 2% која је заједно купила хлеб и путер, а 60% купаца је купило хлеб као и путер.
Подршка и поверење за ставке А и Б представљају формуле:
Рударство правила удруживања састоји се од 2 корака:
- Пронађите све честе скупове предмета.
- Генеришите правила придруживања из горе наведених честих скупова предмета.
Зашто често копање скупова предмета?
Учестало руковање скуповима предмета или образаца широко се користи због његове широке примене у правилима удруживања рудника, корелацијама и ограничењима узорака графикона који се заснива на честим обрасцима, секвенцијалним обрасцима и многим другим задацима рударења података.
Априори алгоритам - Алгоритми честих образаца
Априори алгоритам је први алгоритам који је предложен за често руковање скупом предмета. Касније су га побољшали Р Агарвал и Р Срикант и постао познат као Априори. Овај алгоритам користи два корака „придруживање“ и „обрезивање“ да би смањио простор за претрагу. То је итеративни приступ откривању најчешћих скупова предмета.
Априори каже:
Вероватноћа да ставка И није честа је ако:
- П (И)
- П (И + А)
- Ако скуп скупова предмета има вредност мању од минималне подршке, тада ће и сви његови суперсетови пасти испод минималне подршке, па се стога могу занемарити. Ово својство се назива својство Антимонотоне.
- П (И + А)
Кораци који се следе у Априори алгоритму за рударење подацима су:
- Придружите се кораку : Овај корак генерише (К + 1) скуп предмета из скупова предмета спајањем сваке ставке са собом.
- Корак од шљиве : Овај корак скенира број сваке ставке у бази података. Ако ставка кандидата не задовољава минималну подршку, тада се сматра ретком и стога се уклања. Овај корак се изводи како би се смањила величина скупова ставки кандидата.
Кораци у априори
Априори алгоритам је низ корака које треба следити да би се пронашао најчешћи скуп предмета у датој бази података. Ова техника претраживања података итеративно прати спајање и орезивање док се не постигне најчешћи скуп предмета. Минимални праг подршке наведен је у проблему или га претпоставља корисник.
# 1) У првој итерацији алгоритма, свака ставка се узима као кандидат за 1 скуп предмета. Алгоритам ће бројати појаве сваке ставке.
#два) Нека постоји нека минимална подршка, мин_суп (нпр. 2). Одређује се скуп скупова од 1 предмета чија појава задовољава мин суп. Само они кандидати који броје више или једнако мин_суп, узимају се за следећу итерацију, а остали се обрезују.
# 3) Затим се откривају честе ставке са мин_суп са 2 ставке. За ово у кораку спајања, скуп од 2 ставке се генерише формирањем групе од 2 комбиновањем предмета са собом.
# 4) Кандидати са 2 ставке се обрезују користећи минималну вредност прага. Сада ће табела имати 2 -сет скупова са само мин-суп.
# 5) Следећа итерација ће формирати 3 –месета помоћу корака спајања и обрезивања. Ова итерација ће следити антимонотонско својство где подскупови скупова од 3 предмета, односно 2 подскупа сваке групе спадају у мин_суп. Ако су чести сви подскупови од 2 ставке, тада ће суперсет бити чест, иначе се подрезује.
# 6) Следећи корак следи израда скупа од 4 предмета спајањем скупа од 3 предмета и обрезивањем ако његов подскуп не испуњава критеријуме мин_суп. Алгоритам се зауставља када се постигне најчешћи скуп предмета.
[слика извор ]
Пример Априорија:Праг подршке = 50%, поуздање = 60%
ТАБЕЛА 1
Трансакција | Списак предмета |
---|---|
Т1 | И1, И2, И3 |
Т2 | И2, И3, И4 |
Т3 | И4, И5 |
Т4 | И1, И2, И4 |
Т5 | И1, И2, И3, И5 |
Т6 | И1, И2, И3, И4 |
Решење:
Праг подршке = 50% => 0,5 * 6 = 3 => мин_суп = 3
1. Бројање сваке ставке
ТАБЕЛА-2
Предмет | Цоунт |
---|---|
И1 | 4 |
И2 | 5 |
И3 | 4 |
И4 | 4 |
И5 | два |
два. Корак шљиве: ТАБЕЛА -2 показује да ставка И5 не задовољава мин_суп = 3, па се стога брише, само И1, И2, И3, И4 испуњавају мин_суп цоунт.
ТАБЕЛА-3
Предмет | Цоунт |
---|---|
И1 | 4 |
И2 | 5 |
И3 | 4 |
И4 | 4 |
3 Придружите се кораку: Образац 2-итемсет. Од ТАБЕЛА 1 сазнајте појаве скупа од 2 предмета.
ТАБЕЛА-4
Предмет | Цоунт |
---|---|
И1, И2 | 4 |
И1, И3 | 3 |
И1, И4 | два |
И2, И3 | 4 |
И2, И4 | 3 |
И3, И4 | два |
Четири. Корак шљиве: ТАБЕЛА -4 показује да скуп ставки {И1, И4} и {И3, И4} не задовољава мин_суп, па је избрисан.
ТАБЕЛА-5
Предмет | Цоунт |
---|---|
И1, И2 | 4 |
И1, И3 | 3 |
И2, И3 | 4 |
И2, И4 | 3 |
5. Придружите се и орежите корак: Образац од 3 ставке. Од ТАБЕЛА 1 сазнајте појаве скупа од 3 предмета. Од ТАБЕЛА-5 , сазнајте подскупове од 2 ставке који подржавају мин_суп.
Можемо видети за подскупове {И1, И2, И3}, {И1, И2}, {И1, И3}, {И2, И3} који се јављају у ТАБЕЛА-5 стога су {И1, И2, И3} чести.
Можемо видети да подскупови {И1, И2, И4}, {И1, И2}, {И1, И4}, {И2, И4}, {И1, И4} нису чести, јер се не јављају у ТАБЕЛА-5 стога {И1, И2, И4} није често, па се стога брише.
ТАБЕЛА-6
Предмет |
---|
И1, И2, И3 |
И1, И2, И4 |
И1, И3, И4 |
И2, И3, И4 |
Чести су само {И1, И2, И3} .
6. Генеришите правила о удруживању: Из учесталог скупа предмета откривеног горе, асоцијација може бити:
{И1, И2} => {И3}
Поуздање = подршка {И1, И2, И3} / подршка {И1, И2} = (3/4) * 100 = 75%
{И1, И3} => {И2}
Поверење = подршка {И1, И2, И3} / подршка {И1, И3} = (3/3) * 100 = 100%
{И2, И3} => {И1}
Повјерење = подршка {И1, И2, И3} / подршка {И2, И3} = (3/4) * 100 = 75%
{И1} => {И2, И3}
Поверење = подршка {И1, И2, И3} / подршка {И1} = (3/4) * 100 = 75%
{И2} => {И1, И3}
Поуздање = подршка {И1, И2, И3} / подршка {И2 = (3/5) * 100 = 60%
{И3} => {И1, И2}
Повјерење = подршка {И1, И2, И3} / подршка {И3} = (3/4) * 100 = 75%
То показује да су сва горе наведена правила придруживања јака ако је минимални праг поузданости 60%.
Априори алгоритам: псеудо код
Ц: Скуп предмета величине кандидата к
Л: Чести скуп предмета величине к
унит тест вс тест интеграције вс функционални тест
[слика извор ]
Предности
- Лако разумљив алгоритам
- Кораке придруживања и обрезивања лако је применити на великим скуповима предмета у великим базама података
Мане
- Потребно је велико рачунање ако су скупови предмета врло велики и ако је минимална подршка врло ниска.
- Треба скенирати целу базу података.
Методе за побољшање ефикасности априорија
Доступне су многе методе за побољшање ефикасности алгоритма.
- Техника заснована на хешу: Ова метода користи структуру засновану на хешу која се назива хеш табела за генерисање к-предмета и одговарајућег броја. За генерисање табеле користи хеш функцију.
- Смањење трансакција: Овај метод смањује број скенирања трансакција у итерацијама. Трансакције које не садрже честе ставке су означене или уклоњене.
- Партиционирање: Ова метода захтева само два скенирања базе података за минирање честих скупова предмета. Каже се да би било који скуп предмета могао бити чест у бази података, требало би да буде чест у најмање једној од партиција базе података.
- Узимање узорка: Ова метода бира случајни узорак С из базе података Д, а затим претражује учестали скуп предмета у С. Можда ће бити могуће изгубити глобални учестали скуп предмета. Ово се може смањити спуштањем мин_суп.
- Динамичко бројање скупова предмета: Ова техника може додати нове скупове ставки кандидата на било којој означеној почетној тачки базе података током скенирања базе података.
Примене Априори алгоритма
Нека поља у којима се користи Априори:
- У области образовања: Издвајање правила о удруживању у претраживању података примљених ученика кроз карактеристике и специјалности.
- У области медицине: На пример Анализа базе података пацијента.
- У шумарству: Анализа вероватноће и интензитета шумског пожара са подацима о шумском пожару.
- Априори користе многе компаније попут Амазона у Систем препорука и Гоогле за функцију аутоматског довршавања.
Закључак
Априори алгоритам је ефикасан алгоритам који само једном скенира базу података.
Значајно смањује величину скупова предмета у бази података пружајући добре перформансе. Дакле, рударење података помаже потрошачима и индустрији да боље учествују у процесу доношења одлука.
Погледајте наш предстојећи водич да бисте сазнали више о алгоритму раста учесталог узорка !!
ПРЕВ Туториал |. | СЛЕДЕЋА Лекција
Препоручено читање
- Технике рударства података: алгоритам, методе и врхунски алати за минирање података
- Рударство података: процес, технике и главни проблеми у анализи података
- Примери рударства података: Најчешћа примена рударства података 2021
- Примери алгоритма стабла одлука у рударству података
- Процес рударења података: Укључени модели, кораци процеса и изазови
- Дата Мининг вс Мацхине Леарнинг вс Артифициал Интеллигенце вс Дееп Леарнинг
- Топ 15 најбољих бесплатних алата за рударење података: Најопсежнија листа
- ЈМетер параметризација података коришћењем кориснички дефинисаних променљивих