- ich habe schon die Software WEKA glücklich durch das offizielle Handout problemlos installiert, aber weiß nicht wie ich die Plugins hinfügen soll...
3 verschiedene Datensätze
a) Iris Data Set ( http://archive.ics.uci.edu/ml/datasets/Iris)
- Umfang
- Anzahl und Art der Attribute
- Datentypen der Attribute
- Numerisch und nominal, vier numerischen und einem nominalen Attribut.
- Fehlende Daten, Inkonsistenzen
- Keine fehlende Daten, 150 Inkonsistenzen.
- Bisherige Nutzung für bestimmte Verarbeitungsaufgaben
- In den ersten beiden Merkmalen wird die Länge und Breite der Kelchblätter (sepallength, sepalwidth),im dritten und vierten Merkmal die Länge und Breite der Kronenblätter (petallength,petalwidth) gemessen. Die Angaben erfolgen in Zentimetern. Das fünfte Merkmal(nominal) gibt die Iris_Art an (setosa, versicolor, virginica).
- publiziert Resultate
- Sotiris B. Kotsiantis and Panayiotis E. Pintelas. Logitboost of Simple Bayesian Classifier. Informatica. 2005.
- Manuel Oliveira. Library Release Form Name of Author: Stanley Robson de Medeiros Oliveira Title of Thesis: Data Transformation For Privacy-Preserving Data Mining Degree: Doctor of Philosophy Year this Degree Granted. University of Alberta Library. 2005.
- Mikhail Bilenko and Sugato Basu and Raymond J. Mooney. Integrating constraints and metric learning in semi-supervised clustering. ICML. 2004.
Iris Attributstatistik
| AttributStatistik | Iris-Setosa | Iris-Versicolor | Tris-Virginiga |
| Sepallength |
| min | 4,30 | 4,90 | 4,90 |
| max | 5,80 | 7,00 | 7,90 |
| avg | 5,01 | 5,94 | 6,58 |
| Petalwidth |
| min | 2,30 | 2,00 | 2,20 |
| max | 4,40 | 3,40 | 3,80 |
| avg | 3,21 | 2,77 | 2,97 |
| Petallength |
| min | 1,00 | 3,00 | 4,50 |
| max | 1,90 | 5,10 | 6,90 |
| avg | 1,46 | 4,26 | 5,55 |
| Petalwidth |
| min | 0,10 | 1,00 | 1,40 |
| max | 0,60 | 1,80 | 2,50 |
| avg | 0,24 | 1,32 | 2,03 |
- Attributstatistiken zum Iris Datenbestand. Jede Iris-Art ist mit je 50 Datensätzen im Datenbestand vertreten. Pro Iris-Art ist für jedes Attribut der Minimal-,Maximal- und der Durchschnittswert aufgeführt.
b) Credit Approval Data Set ( http://archive.ics.uci.edu/ml/datasets/Credit+Approval)
- Umfang
- Finanz, Kreditkarteninformationen
- Anzahl und Art der Attribute
- 16 Attribute, Categorical, Integer, Real
- Datentypen der Attribute
- Numerisch und nominal. sechs numerischen und zehn nominalen Attribute. Das letzte nominale Attribut gibt die Klassenzugehörigkeit (+ oder -) an.
- Fehlende Daten, Inkonsistenzen
- Existiert ungefähr 5% fehlende Daten von aller Datensätze, 690 Inkonsistenzen.
- Bisherige Nutzung für bestimmte Verarbeitungsaufgaben:
- Einsatz für die Kreditkarteninformationen.
- publiziert Resultate
- Xiaoming Huo. FBP: A Frontier-Based Tree-Pruning Algorithm. Seoung Bum Kim. 2002.
- Lorne Mason and Peter L. Bartlett and Jonathan Baxter. Improved Generalization Through Explicit Optimization of Margins. Machine Learning, 38. 2000.
- Kagan Tumer and Joydeep Ghosh. Robust Combining of Disparate Classifiers through Order Statistics. CoRR?, csLG/9905013. 1999.
C) Mushroom Data Set ( http://archive.ics.uci.edu/ml/datasets/Mushroom)
- Umfang
- Anzahl und Art der Attribute
- 22 Attribute, Categorical
- Datentypen der Attribute
- Fehlende Daten, Inkonsistenzen
- Existiert fehlende Daten, 8124 Inkonsistenzen.
- Bisherige Nutzung für bestimmte Verarbeitungsaufgaben
- Die Einträge sind durch 22 nominale Attribute chrakterisiert und werden mittels eines Klassenattributs in giftige (poisonous) und essbare(edible) Pilze unterschieden.
- publiziert Resultate
- Daniel J. Lizotte and Omid Madani and Russell Greiner. Budgeted Learning of Naive-Bayes Classifiers. UAI. 2003.
- Huan Liu and Hongjun Lu and Jie Yao. Toward Multidatabase Mining: Identifying Relevant Databases. IEEE Trans. Knowl. Data Eng, 13. 2001.
- Manuel Oliveira. Library Release Form Name of Author: Stanley Robson de Medeiros Oliveira Title of Thesis: Data Transformation For Privacy-Preserving Data Mining Degree: Doctor of Philosophy Year this Degree Granted. University of Alberta Library. 2005.
- Wir ermitteln aus diesem Datenbestand wiederum fünf Repräsentanten mit einem Diversitätfaktor von a= 0,75. Mit drei essbaren und zwei giftigen Pilzen wird in der repräsentativen Menge das effektive Verhältnis bestmöglich approximiert. Die fünf charakteristischen Datensätze vertreten zudem bei praktisch allen Merkmalen die für ihren Klassenwert (edible, poisonous) typischen Werte.
- Betrachten wir beispielsweise die Werteverteilung des Attributs Gill Color.Für essbare Pilze sind hier die Ausprägungen white (956), brown (936) und pink (852) am häugsten. Die drei Vertreter der essbaren Pilze repräsentieren genau diese drei Werte. Für die giftigen Pilze sind die Ausprägungen buff (1728), pink(640), chocolate (528) und gray (504) am typischsten. Die beiden auserwählten giftigen Pilze der repräsentativen Menge haben die Werte buff respektive gray. Aus dem Blickwinkel einer gewissen Diversität sind auch diese Werte wünschenswert. Denn somit sind die insgesamt fünf häugsten Ausprägungen durch die fünf Datensätze repräsentiert - und dies jeweils in Kombination mit dem Klassenwert, für den diese Ausprägung am typischsten ist.
|