weka dataset classifier
Овај водич објашњава ВЕКА скуп података, класификатор и Ј48 алгоритам за стабло одлучивања. Такође пружа информације о узорцима АРФФ скупова података за Века:
У Претходни водич , сазнали смо о Века алатки за машинско учење, његовим карактеристикама и начину преузимања, инсталирања и употребе софтвера Века Мацхине Леарнинг.
ВЕКА је библиотека алгоритама машинског учења за решавање проблема рударења података на стварним подацима. ВЕКА такође пружа окружење за развој многих алгоритама машинског учења. Има сет алата за извршавање различитих задатака рударења података, као што су класификација података, груписање података, регресија, одабир атрибута, често руковање скупом ставки итд.
Сви ови задаци могу се извршити на сампле.АРФФ датотеци доступној у ВЕКА спремишту или корисници могу припремити своје датотеке података. Узорци .арфф датотека су скупови података који имају уграђене историјске податке које су прикупили истраживачи.
=> Прочитајте комплетну серију обука за машинско учење
У овом упутству ћемо видети неке узорке скупова података у ВЕКА-и, а такође ћемо извршити рударство података алгоритма стабла одлука користећи скуп података веатхер.арфф.
Шта ћете научити:
Истраживање ВЕКА скупова података
ВЕКА алат за машинско учење пружа директоријум неких узорака скупова података. Ови скупови података могу се директно учитати у ВЕКА како би корисници могли одмах да почну да развијају моделе.
ВЕКА скупове података можете истражити путем везе „Ц: Програм Филес Века-3-8 дата“. Скупови података су у .арфф формату.
Узорци ВЕКА скупова података
Неки узорци скупова података присутни у ВЕКА наведени су у доњој табели:
С.бр. | Примери скупова података |
---|---|
7. | дијабетес.арф |
1. | авиокомпанија.арфф |
2. | рак дојке.арф |
3 | контактна лећа.арф |
Четири. | цпу.арфф |
5. | цпу.витх-вендор.арфф |
6. | кредит-г.арфф |
8. | стакло.арф |
9. | хипотиреоза.арф |
10. | ионоспехре.арфф |
Једанаест. | ирис.2Д.арфф |
12. | ирис.арфф |
13. | рада.арф |
14. | РеутерсЦорн-траин.арфф |
петнаест. | РеутерсЦорн-тест.арфф |
16. | РеутерсГраин-траин.арфф |
17. | РеутерсГраин-тест.арфф |
18. | сегмент-изазов.арфф |
19. | сегмент-тест.арфф |
двадесет. | соја.арф |
двадесет један. | супермаркет.арф |
22. | неуравнотежен.арф |
2. 3. | гласати.арф |
24. | веатхер.нумериц.арфф |
25. | време.номинал.арф |
Погледајмо неке од ових:
контактна лећа.арф
сет података цонтацт-ленс.арфф је база података за уградњу контактних сочива. Даровао га је донатор Беноит Јулиен 1990. године.
База података: Ова база података је потпуна. Примери коришћени у овој бази података су потпуни и без буке. База података има 24 инстанце и 4 атрибута.
Атрибути: Сва четири атрибута су номинална. Не недостају вредности атрибута. Четири атрибута су следећа:
# 1) Старост пацијента: Атрибут старост може попримити вредности:
- млади
- пре-пресбиопијски
- пресбиопијски
#два) Рецепт за наочаре: Овај атрибут може попримити вредности:
- кратковидни
- хиперметроп
# 3) Астигматичан: Овај атрибут може попримити вредности
- не
- да
# 4) Стопа производње суза: Вредности могу бити
- смањена
- нормално
Класа: Овде су дефинисане три ознаке класе. Су:
- пацијент треба да буде опремљен тврдим контактним сочивима.
- пацијент треба да буде опремљен меким контактним сочивима.
- пацијент не би требало да буде опремљен контактним сочивима.
Дистрибуција класе: Примери који су класификовани у ознаке класа наведени су у наставку:
Ознака класе | Број примерака | |
---|---|---|
1. | Тврде контактне леће | 4 |
2. | Меке контактне леће | 5 |
3 | Нема контактних сочива | петнаест |
ирис.арфф
Скуп података ирис.арфф креирао је 1988. Мицхаел Марсхалл. То је база података биљака перуника.
бесплатне алтернативе за аваст премиум чишћење
База података: Ова база података се користи за препознавање узорака. Скуп података садржи 3 класе од 50 примерака. Свака класа представља врсту биљке ириса. Једна класа је линеарно одвојива од друге 2, али се друге не могу линеарно одвојити једна од друге. Предвиђа којој врсти цвета 3 ириса припада посматрање. Ово се назива скуп података класификације у више класа.
Атрибути: Има 4 нумеричка, предиктивна атрибута и класу. Нема недостајућих атрибута.
Атрибути су:
- дужина сепала у цм
- ширина сепала у цм
- дужина латице у цм
- ширина латица у цм
- класа:
- Ирис Сетоса
- Ирис Версицолор
- Ирис Виргиница
Резиме статистике:
Мин | Макс | Значити | СД | Корелација класе | |
---|---|---|---|---|---|
дужина сепала | 4.3 | 7.9 | 5.84 | 0.83 | 0.7826 |
ширина сепала | 2.0 | 4.4 | 3.05 | 0.43 | -0.4194 |
дужина латица | 1.0 | 6.9 | 3.76 | 1.76 | 0,9490 (високо!) |
ширина латица | 0.1 | 2.5 | 1.20 | 0.76 | 0,9565 (високо!) |
Дистрибуција класе: 33,3% за сваку од 3 класе
Неки други скупови података:
дијабетес.арф
База података овог скупа података је Пима Индианс Диабетес. Овај скуп података предвиђа да ли је пацијент склон дијабетесу у наредних 5 година. Пацијенти у овом скупу података су све жене најмање 21 године старости из Пима Индиан Херитаге. Има 768 инстанци и 8 нумеричких атрибута плус класу. Ово је бинарни скуп података класификације где је предвиђена излазна променљива номинално која се састоји од две класе.
јоносфера.арф
Ово је популаран скуп података за бинарну класификацију. Пример у овом скупу података описује својства радара који се враћају из атмосфере. Користи се за предвиђање где јоносфера има неку структуру или не. Има 34 нумеричка атрибута и класу.
Атрибут класе је „добар“ или „лош“ што се предвиђа на основу посматрања 34 атрибута. Примљени сигнали се обрађују функцијом аутокорелације узимајући као аргументе временски импулс и број импулса.
Скупови података о регресији
Регресијски скупови података могу се преузети са ВЕКА веб странице “ Збирке скупова података ”. Има 37 проблема са регресијом добијених из различитих извора. Преузета датотека створиће нумерички / директоријум са регресионим скуповима података у .арфф формату.
Популарни скупови података присутни у директоријуму су: Лонглеи економски скуп података (лонглеи.арфф), скуп података о ценама кућа у Бостону (хоусинг.арфф) и скуп података о сну код сисара (слееп.арфф).
Погледајмо сада како да идентификујемо стварне и номиналне атрибуте у скупу података помоћу програма ВЕКА екплорер.
Који су стварни и номинални атрибути
Атрибути са стварном вредношћу су нумерички атрибути који садрже само стварне вредности. То су мерљиве величине. Ови атрибути могу бити скалирани у интервалима, на пример температура или омјер, као средња вредност, средња вредност.
Номинални атрибути представљају имена или неки приказ ствари. У таквим атрибутима нема реда и они представљају неку категорију. На пример, боја.
Следите кораке наведене у наставку да бисте ВЕКА користили за идентификовање стварних вредности и номиналних атрибута у скупу података.
# 1) Отворите ВЕКА и одаберите „Екплорер“ под „Апплицатионс“.
#два) Изаберите картицу „Пре-Процесс“. Кликните на „Отвори датотеку“. Са ВЕКА корисником можете приступити ВЕКА огледним датотекама.
# 3) Изаберите улазну датотеку из фасцикле ВЕКА3.8 која је сачувана на локалном систему. Изаберите унапред дефинисану .арфф датотеку „цредит-г.арфф“ датотеку и кликните на „Опен“.
# 4) На левој табли отвориће се листа атрибута. Статистика изабраних атрибута биће приказана на десној табли заједно са хистограмом.
Анализа скупа података:
У левом окну тренутна релација показује:
- Име везе: герман_цредит је примерак датотеке.
- Примери: 1000 број редова података у скупу података.
- Атрибути: 21 атрибут у скупу података.
Панел испод тренутне релације приказује име атрибута.
На десној табли, приказана је статистика изабраних атрибута. Изаберите атрибут „статус_провера“.
Показује:
- Назив атрибута
- Недостаје: Све вредности атрибута које недостају у скупу података. 0% у овом случају.
- Дистинцт: Атрибут има 4 различите вредности.
- Тип: Атрибут је номиналног типа, односно не узима нумеричку вредност.
- Цоунт: Међу 1000 примерака, у колони бројања записано је бројање сваке различите ознаке класе.
- Хистограм: Приказаће ознаку излазне класе за атрибут. Ознака класе у овом скупу података је или добра или лоша. Постоји 700 случајева добрих (означених плавом бојом) и 300 случајева лоших (означених црвеном бојом).
- За етикету<0, the instances for good or bad are almost the same in number.
- За етикету, 0<= X<200, the instances with decision good are more than instances with bad.
- Слично томе, за лабел> = 200, максималан број случајева се дешава добро и ниједна ознака за проверу нема више случајева са добром одлуком.
За следећи атрибут „трајање“.
Десни панел приказује:
- Име: Ово је Име атрибута.
- Тип: Тип атрибута је нумерички.
- Недостаје вредност: Атрибут нема недостајућу вредност.
- Дистинцт: Има 33 различите вредности у 1000 случајева. То значи да у 1000 случајева има 33 различите вредности.
- Јединствено: Има 5 јединствених вредности које се међусобно не подударају.
- Минимална вредност: Минимална вредност атрибута је 4.
- Максимална вредност: Максимална вредност атрибута је 72.
- Значити: Просек је сабирање свих вредности подељених примерцима.
- Стандардна девијација: Стддевијација трајања атрибута.
- Хистограм: Хистограм приказује трајање од 4 јединице, максималан број случајева се јавља за добру класу. Како се трајање повећава на 38 јединица, број примерака се смањује за ознаке добре класе. Трајање достиже 72 јединице које имају само једну инстанцу која одлуку класификује као лошу.
Класа је класификациона карактеристика номиналног типа. Има две различите вредности: добро и лоше. Ознака добре класе има 700 примерака, а ознака лоше класе 300 примерака.
Да бисте визуализирали све атрибуте скупа података, кликните на „Визуализуј све“.
# 5) Да бисте сазнали само нумеричке атрибуте, кликните на дугме Филтер. Одатле кликните на Изаберите -> ВЕКА> ФИЛТЕРИ -> Ненадгледани тип -> Уклони тип.
ВЕКА филтри имају много функционалности за трансформисање вредности атрибута скупа података како би га учинили погодним за алгоритме. На пример, нумеричка трансформација атрибута.
Филтрирање номиналних и стварних вредности из скупа података је још један пример коришћења ВЕКА филтера.
# 6) Кликните на РемовеТипе на картици филтера. Отвориће се прозор уређивача објеката. Изаберите аттрибутеТипе “Делете нумериц аттрибутес” и кликните на ОК.
# 7) Примените филтер. Приказаће се само нумерички атрибути.
Атрибут класе је номиналног типа. Класификује излаз и стога се не може избрисати. Тако се то види са нумеричким атрибутом.
Излаз:
Атрибути стварне вредности и номиналне вредности у скупу података су идентификовани. Визуелизација са ознаком одељења види се у облику хистограма.
Века алгоритми класификације стабла одлука
Сада ћемо видети како применити класификацију стабла одлука на скупу података веатхер.номинал.арфф користећи Ј48 класификатор.
време.номинал.арф
То је узорак скупа података присутних у директном ВЕКА. Овај скуп података предвиђа да ли је време погодно за играње крикета. Скуп података садржи 5 атрибута и 14 инстанци. Ознака класе „плаи“ класификује излаз као „да“ или „не“.
Шта је дрво одлуке
Стабло одлучивања је техника класификације која се састоји од три компоненте коренског чвора, гране (ивице или везе) и чвора листа. Роот представља услов испитивања за различите атрибуте, грана представља све могуће исходе који могу бити тамо у тесту, а чворови листова садрже ознаку класе којој припада. Коријенски чвор је на почетку дрвета који се назива и врхом дрвета.
Ј48 класификатор
То је алгоритам за генерисање стабла одлука које генерише Ц4.5 (проширење ИД3). Познат је и као статистички класификатор. За класификацију стабла одлука потребна нам је база података.
Кораци укључују:
# 1) Отворите ВЕКА екплорер.
#два) Изаберите датотеку веатхер.номинал.арфф из „селецт филе“ у оквиру опције предпроцеса.
# 3) Идите на картицу „Класификовање“ за класификацију некласификованих података. Кликните на дугме „Цхоосе“. Од тога изаберите „дрвеће -> Ј48“. Дозволите нам да на брзину погледамо и друге опције у дугмету Одабери:
- Баиес: То је процена густине за нумеричке атрибуте.
- Мета: То је линеарна регресија са више одговора.
- Функције: То је логистичка регресија.
- Лази: Аутоматски подешава ентропију мешања.
- Правило: То је правило које учи.
- Дрвеће: Дрвеће класификује податке.
# 4) Кликните на дугме Старт. Излаз класификатора ће се видети на десној плочи. Приказује информације о извођењу на панелу као:
- Шема: Коришћени алгоритам класификације.
- Примери: Број редова података у скупу података.
- Атрибути: Скуп података има 5 атрибута.
- Број листова и величина стабла описује стабло одлуке.
- Време потребно за изградњу модела: Време за излаз.
- Потпуна класификација Ј48 орезана са атрибутима и бројем случајева.
# 5) Да бисте визуализовали дрво, кликните десним тастером миша на резултат и одаберите визуализујте дрво.
Оутпут :
Резултат је у облику стабла одлука. Главни атрибут је „изглед“.
Ако су изгледи сунчани, онда дрво даље анализира влажност. Ако је влажност ваздуха велика, ознака класе се репродукује = „да“.
Ако су изгледи суморни, разредна ознака, игра је „да“. Број случајева који се подвргавају класификацији је 4.
Ако су изгледи кишни, даља класификација се врши како би се анализирао атрибут „ветровито“. Ако је ветровито = тачно, представа = „не“. Број случајева који се подвргавају класификацији за изглед = ветровито и ветровито = тачно је 2.
Закључак
ВЕКА нуди широку лепезу узорака скупова података за примену алгоритама машинског учења. Корисници могу да извршавају задатке машинског учења као што су класификација, регресија, одабир атрибута, придруживање на овим узорцима података, а такође могу да науче алат помоћу њих.
ВЕКА екплорер се користи за обављање неколико функција, почевши од предобраде. Претпроцесирање узима улаз као .арфф датотеку, обрађује улаз и даје излаз који могу користити други рачунарски програми. У ВЕКА излаз претпроцесирања даје атрибуте присутне у скупу података који се даље могу користити за статистичку анализу и упоређивање са ознакама класа.
ВЕКА такође нуди многе алгоритме класификације за стабло одлучивања. Ј48 је један од популарних алгоритама класификације који даје стабло одлуке. Помоћу картице Класификовање корисник може да визуализује стабло одлука. Ако је стабло одлука превише насељено, обрезивање стабла може се применити са картице Препроцесс уклањањем атрибута који нису потребни и поновним покретањем процеса класификације.
=> Посетите овде за ексклузивну серију машинског учења
Препоручено читање
- Водич за Века - Како преузети, инсталирати и користити Века алатку
- Како писати сложене сценарије теста пословне логике помоћу технике табеле одлучивања
- ВЕКА Екплорер: Визуелизација, кластеризација, удруживање правила рударења
- Примери алгоритма стабла одлука у рударству података
- Конструкције за доношење одлука на Ц ++
- Структура података Б Трее и Б + Трее у Ц ++
- Структура података бинарног стабла у језику Ц ++
- Структура података АВЛ стабла и гомиле у Ц ++