weka explorer visualization
Овај водич објашњава како да извршите визуелизацију података, К-значи кластер анализу и удруживање правила руковања помоћу ВЕКА Екплорера:
У Претходни водич , сазнали смо о ВЕКА скупу података, класификатору и Ј48 алгоритму за стабло одлучивања.
Као што смо раније видели, ВЕКА је алат за рударење података отвореног кода који користе многи истраживачи и студенти за обављање многих задатака машинског учења. Корисници такође могу да изграде своје методе машинског учења и изводе експерименте на узорцима скупова података који се налазе у ВЕКА директоријуму.
Визуализација података у ВЕКА може се извршити помоћу примера скупова података или корисничких скупова података у .арфф, .цсв формату.
=> Прочитајте комплетну серију обука за машинско учење
Копање правила удруживања врши се помоћу Априори алгоритма. То је једини алгоритам који пружа ВЕКА за извођење честих рударања узорака.
У ВЕКА је присутно много алгоритама за извођење кластер анализе, као што су ФартхерестФирст, ФилтередЦлустер и ХиерацхицалЦлустер, итд. Од њих ћемо користити СимплеКмеанс, што је најједноставнији метод кластерисања.
Шта ћете научити:
- Рударство правила придруживања помоћу ВЕКА Екплорера
- К-значи алгоритам који користи ВЕКА Екплорер
- Примените визуелизацију података користећи ВЕКА
- Закључак
Рударство правила придруживања помоћу ВЕКА Екплорера
Погледајмо како применити удруживање правила руковања помоћу ВЕКА Екплорера.
Удружење правила рударства
Развили су га и дизајнирали Срикант и Аггарвал 1994. Помаже нам да пронађемо обрасце у подацима. То је процес рударења података који проналази обележја која се јављају заједно или обележја која су у корелацији.
како рипати ДВД бесплатно
Примена правила о удруживању укључује анализу тржишне корпе за анализу предмета купљених у једној корпи; Цросс Маркетинг, за рад са другим предузећима која повећавају вредност наших пословних производа, као што су продавац возила и Нафтна компанија.
Правила придруживања се минирају након проналаска честих скупова ставки у великом скупу података. Ови скупови података се откривају помоћу рударских алгоритама као што су Априори и ФП Гровтх. Подаци о рударству који често врше Итемсет минирају се помоћу мера подршке и поверења.
Подршка и поверење
Подршка мери вероватноћу да се две ствари купе заједно у једној трансакцији, као што су хлеб и путер. Самопоуздање је мера која наводи вероватноћу да се два предмета купују један за другим, али не заједно, попут антивирусног софтвера за лаптоп и рачунаре.
Подржане су минималне вредности прага и минималне вредности прага поузданости како би се извршиле обрезивања трансакција и сазнали најчешће постављени скуп предмета.
Имплементација помоћу ВЕКА Екплорера
ВЕКА садржи имплементацију Априори алгоритам за учење правила удруживања. Априори ради само са бинарним атрибутима, категоријалним подацима (номинални подаци), па ако скуп података садржи неке нумеричке вредности, прво их претворите у номиналне.
Априори сазнаје сва правила са минималном подршком и прагом самопоуздања.
Следите кораке у наставку:
# 1) Припремите скуп података екцел датотеке и назовите га као „ априори.цсв '.
#два) Отворите ВЕКА Екплорер и на картици Препроцесс одаберите датотеку „априори.цсв“.
# 3) Датотека се сада учитава у ВЕКА Екплорер.
# 4) Уклоните поље Трансакција потврђивањем поља за потврду и кликом на Уклони као што је приказано на доњој слици. Сада сачувајте датотеку као „априоритест.арфф“.
# 5) Идите на картицу Ассоциате. Априори правила се могу вадити одавде.
# 6) Кликните на Одабери да бисте поставили параметре подршке и поузданости. Овде се могу подесити различити параметри:
- ' ловерБоундМинСуппорт ' и ' упперБоундМинСуппорт ”, Ово је интервал нивоа подршке у којем ће наш алгоритам радити.
- Делта је повећање у подршци. У овом случају, 0,05 је прираштај подршке са 0,1 на 1.
- метрицТипе могу бити „Поверење“, „Подизање“, „Полуга“ и „Убеђење“. Ово нам говори како рангирамо правила удруживања. Генерално се бира поверење.
- нумРулес говори о броју правила удруживања која треба ископати. Подразумевано је постављено на 10.
- ниво значајности приказује какав је значај нивоа поузданости.
# 7) Поље за текст поред дугмета за одабир приказује „ Априори-Н-10-Т-0-Ц-0.9-Д 0,05-У1,0-М0,1-С-1,0-ц-1 ”, Који приказује сажета правила постављена за алгоритам на картици подешавања.
# 8) Кликните на дугме Старт. Правила придруживања се генеришу на десној табли. Овај панел се састоји од 2 одељка. Прво је алгоритам, скуп података одабран за покретање. Други део приказује Априори информације.
Дозволите нам да разумемо информације о покретању на десном панелу:
- Шема користила нас Априори.
- Инстанце и атрибути: Има 6 инстанци и 4 атрибута.
- Минимална подршка и минимално поверење су 0,4, односно 0,9. Од 6 инстанци, 2 инстанце су пронађене са минималном подршком,
- Број изведених циклуса за правило рударске асоцијације је 12.
- Велики генерисани скупови предмета су 3: Л (1), Л (2), Л (3), али они нису рангирани јер су њихове величине 7, 11 и 5 респективно.
- Пронађена правила су рангирана. Тумачење ових правила је следеће:
- Маслац Т 4 => Пиво Ф 4: значи да од 6, 4 случаја показује да је за путер тачно, пиво нетачно. Ово даје снажну асоцијацију. Ниво поверења је 0,1.
Оутпут
Правила придруживања могу се ископати помоћу ВЕКА Екплорера са Априори алгоритмом. Овај алгоритам се може применити на све типове скупова података доступних у ВЕКА директоријуму, као и на друге скупове података које је направио корисник. Подршка, поузданост и други параметри могу се подесити помоћу прозора за подешавање алгоритма.
К-значи алгоритам који користи ВЕКА Екплорер
Погледајмо како да применимо алгоритам К-значи за груписање помоћу ВЕКА Екплорера.
Шта је кластер анализа
Алгоритми кластеровања су алгоритми учења без надзора који се користе за стварање група података са сличним карактеристикама. Објекте са сличностима обједињује у групе и подгрупе, што доводи до поделе скупова података. Кластер анализа је процес разврставања скупова података у подскупове. Ти се подскупови називају кластерима, а скуп кластера кластерима.
Кластер анализа користи се у многим апликацијама као што су препознавање слика, препознавање узорака, веб претрага и сигурност, у пословној интелигенцији као што је груписање купаца са сличним жељама.
Шта је К-значи груписање
К значи да је кластерисање најједноставнији алгоритам кластерисања. У алгоритму К-кластеровања, скуп података је подељен у К-кластере. Објективна функција користи се за проналажење квалитета партиција тако да се слични објекти налазе у једном кластеру, а различити објекти у другим групама.
У овој методи утврђено је да тежиште кластера представља кластер. Тежиште се узима као средиште јата које се израчунава као средња вредност тачака унутар јата. Сада се квалитет груписања проналази мерењем еуклидске удаљености између тачке и центра. Ово растојање би требало да буде максимално.
Како функционише алгоритам кластерисања К-средина
Корак 1: Изаберите вредност К где је К број кластера.
Корак 2: Итерирајте сваку тачку и доделите јој групу која има најближи центар. Када се сваки елемент понавља, израчунајте центроид свих кластера.
Корак # 3: Итерирајте сваки елемент из скупа података и израчунајте еуклидску удаљеност између тачке и тежишта сваког кластера. Ако је било која тачка присутна у кластеру која јој није најближа, тада је доделите најближој групи и након извођења свих тачака у скупу података, поново израчунајте тежиште сваког кластера.
Корак # 4: Изводите 3. корак док не дође до новог додељивања између две узастопне итерације.
К-значи примена кластера користећи ВЕКА
Кораци за имплементацију помоћу Веке су следећи:
# 1) Отворите ВЕКА Екплорер и кликните на Опен Филе на картици Препроцесс. Изаберите скуп података „воте.арфф“.
#два) Идите на картицу „Кластер“ и кликните на дугме „Одабери“. Изаберите метод кластеровања као „СимплеКМеанс“.
# 3) Изаберите Поставке, а затим подесите следећа поља:
- Функција растојања као еуклидска
- Број кластера као 6. Са већим бројем кластера, збир квадрата грешке ће се смањити.
- Семе као 10. оф
Кликните на Ок и покрените алгоритам.
# 4) Кликните на Старт на левој табли. Резултати алгоритма приказују се на белом екрану. Анализирајмо информације о извођењу:
- Шема, однос, инстанце и атрибути описују својство скупа података и коришћени метод кластерисања. У овом случају, сет података воице.арфф има 435 инстанци и 13 атрибута.
- Са Кмеанс кластером, број итерација је 5.
- Збир квадратне грешке је 1098,0. Ова грешка ће се смањити са повећањем броја кластера.
- Пет завршних кластера са центроидима представљено је у облику табеле. У нашем случају, Центроиди кластера су 168,0, 47,0, 37,0, 122,0,33,0 и 28,0.
- Груписане инстанце представљају број и проценат укупних инстанци које падају у кластер.
# 5) Изаберите „Класе за процену кластера“ и кликните на Старт.
Алгоритам ће кластеру доделити ознаку класе. Кластер 0 представља републиканске, а кластер 3 представља демократе. Нетачно кластерисана инстанца износи 39,77%, што се може смањити занемаривањем неважних атрибута.
# 6) Да занемаримо неважне атрибуте. Кликните на дугме „Занемари атрибуте“ и одаберите атрибуте које желите уклонити.
# 7) Користите картицу „Визуализуј“ за визуализацију резултата алгоритма кластеровања. Идите на картицу и кликните на било које поље. Померите треперење на макс.
- Ос Кс и оса И представљају атрибут.
- Плава боја представља класну ознаку демократа, а црвена ознаку класну републичку.
- Јиттер се користи за гледање кластера.
- Кликните на поље на десној страни прозора да бисте променили атрибут к координата и прегледали кластере у односу на друге атрибуте.
Оутпут
К значи да је кластерисање једноставна метода кластер анализе. Број кластера се може подесити помоћу картице за подешавање. Тежиште сваког кластера израчунава се као средња вредност свих тачака у кластерима. Са повећањем броја кластера, сума квадратних грешака се смањује. Објекти унутар кластера показују сличне карактеристике и својства. Кластери представљају ознаке класа.
Примените визуелизацију података користећи ВЕКА
Визуализација података
Метода представљања података путем графикона и графикона са циљем јасног разумевања података је визуелизација података.
Постоји много начина за представљање података. Неки од њих су следећи:
# 1) Визуелизација оријентисана на пикселе: Овде боја пиксела представља вредност димензије. Боја пиксела представља одговарајуће вредности.
# 2) Геометријски приказ: Вишедимензионални скупови података су представљени у 2Д, 3Д и 4Д распршеним графиконима.
# 3) Визуелизација заснована на иконама: Подаци су представљени помоћу Цхерноффових лица и штапића. Чернофова лица користе способност људског ума да препозна карактеристике лица и разлике међу њима. Штапић користи 5 фигура за представљање вишедимензионалних података.
питања и одговори на интервјуу за контролу квалитета пдф
# 4) Хијерархијска визуелизација података: Скупови података су представљени помоћу мапа дрвета. Представља хијерархијске податке као скуп угнежђених троуглова.
Визуализација података помоћу ВЕКА Екплорера
Визуализација података помоћу ВЕКА врши се на скупу података ИРИС.арфф.
Укључени кораци су следећи:
# 1) Идите на картицу Препроцесс и отворите скуп података ИРИС.арфф.
#два) Скуп података садржи 4 атрибута и 1 ознаку класе. Атрибути у овом скупу података су:
- Дужина рупе: Тип -нумерички
- Ширина сепала: Тип- нумерички
- Дужина петале: Тип-нумерички
- Ширина латице: Тип-нумерички
- Класа: Тип-номинални
# 3) Да бисте визуализовали скуп података, идите на картицу Визуализација. Картица приказује матрицу графикона атрибута. Атрибути скупа података су означени на к-оси и и-оси док се инстанце цртају. Кутија са атрибутом к-осе и атрибутом и-осе може се увећати.
# 4) Кликните на оквир парцеле за увећање. На пример, к: дужина латица и и: ширина латице. Ознаке разреда су представљене у различитим бојама.
- Ознака разреда - Ирис-сетоса: плава боја
- Ознака разреда - Ирис-версицолор: црвена
- Ознака разреда-Ирис-виргиница-зелена
Ове боје се могу мењати. Да бисте променили боју, кликните на ознаку разреда на дну, појавиће се прозор у боји.
# 5) Кликните на инстанцу представљену ознаком „к“ у графикону. Даће детаље инстанце. На пример:
- Број инстанце: 91
- Одвојена дужина: 5.5
- Ширина сепала: 2.6
- Дужина петале: 4.4
- Ширина латице: 1.2
- Класа: Ирис-версицолор
Неке тачке у радњи изгледају тамније од осталих тачака. Те тачке представљају 2 или више случајева са истом ознаком класе и истом вредношћу атрибута уцртаних на графикону, као што су ширина латице и дужина латице.
Доња слика представља тачку са информацијама од 2 инстанце.
# 6) Атрибути Кс и И осе могу се променити са десне плоче у Визуализујте граф. Корисник може да види различите парцеле.
# 7) Јиттер се користи за додавање случајности у радњу. Понекад се тачке преклапају. Са подрхтавањем, тамније мрље представљају више случајева.
# 8) Да би добио јаснији приказ скупа података и уклонио одступања, корисник може да изабере инстанцу из падајућег менија. Кликните на падајући мени „селецт инстанце“. Изаберите „Правокутник“. Овим ће корисник моћи да бира тачке на парцели цртањем правоугаоника.
# 9) Кликните на „Пошаљи“. Приказаће се само изабране тачке скупа података, а остале тачке ће бити изузете са графикона.
Доња слика приказује тачке из изабраног правоугаоног облика. Графикон представља тачке са само 3 ознаке разреда. Корисник може кликнути на „Сачувај“ да би сачувао скуп података или „Поништи“ да би изабрао другу инстанцу. Скуп података биће сачуван у посебној .АРФФ датотеци.
Излаз:
Визуелизација података помоћу ВЕКА поједностављена је уз помоћ графикона. Корисник може да види било који ниво детаљности. Атрибути се цртају на Кс-оси и и-оси, док се инстанце цртају према Кс и И-оси. Неке тачке представљају вишеструке инстанце које су представљене тачкама тамне боје.
Закључак
ВЕКА је ефикасан алат за рударење подацима за обављање многих задатака рударења података, као и за експериментисање са новим методама преко скупова података. ВЕКА је развило Одељење за рачунарске науке Универзитета Ваикато на Новом Зеланду.
Данашњи свет је затрпан подацима од куповине у супермаркету до сигурносних камера у нашем дому. Рударство података користи ове сирове податке, претвара их у информације за прављење предвиђања. ВЕКА уз помоћ Априори алгоритма помаже у правилима удруживања рударских података у скупу података. Априори је чест алгоритам за руковање узорцима који броји број појављивања скупа предмета у трансакцији.
Кластер анализа је техника за откривање кластера података који представљају сличне карактеристике. ВЕКА нуди много алгоритама за извођење кластер анализе од којих се једноставни начини високо користе.
Визуализација података у ВЕКА може се извршити на свим скуповима података у ВЕКА директоријуму. Необрађени скуп података може се прегледати као и други резултујући скупови података других алгоритама као што су класификација, кластерисање и придруживање могу се визуализовати помоћу ВЕКА.
=> Посетите овде за ексклузивну серију машинског учења
Препоручено читање
- Водич за Века - Како преузети, инсталирати и користити Века алатку
- ВЕКА скуп података, класификатор и Ј48 алгоритам за стабло одлучивања
- 15 НАЈБОЉИХ алата и софтвера за визуелизацију података 2021
- Водич за Д3.јс - Оквир за визуализацију података за почетнике
- Водич за визуелизацију података Д3.јс - Облици, графикони, анимација
- 7 принципа тестирања софтвера: кластерирање дефеката и Парето принцип
- Рударство података: процес, технике и главни проблеми у анализи података
- Технике рударства података: алгоритам, методе и врхунски алати за минирање података