PREDAVANJE: Odkrivanje podskupin v podatkih z več odvisnimi spremenljivkami, 24.1.2013 PDF natisni

Biostatistični center vabi na predavanje

Odkrivanje podskupin v podatkih z več odvisnimi spremenljivkami

ki bo v četrtek, 24. 11. 2012, ob 13. uri na IBMI. Predaval bo Lan Umek s Fakultete za upravo (Univerza v Ljubljani).

 

Odkrivanje podskupin je uporabno področje analize podatkov, ki teži k odkrivanju zanimivih podmnožic slučajnega vzorca glede na izbrani ciljni koncept. Večina obstoječih algoritmov za odkrivanje podskupin je bila doslej razvitih za podatke z eno odvisno dvojiško spremenljivko, zanimivost podskupin pa je predstavljala njena porazdelitvena različnost med podskupino in celotnim vzorcem. Na seminarju bo predstavljen algoritem za odkrivanje podskupin, ki zmore hkratno obravnavati več odvisnih spremenljivk, te pa so lahko mešanega tipa. Podatki te vrste se čedalje pogosteje pojavljajo na različnih znanstvenih področjih, zato je potreba po njihovi primerni analizi čedalje večja. Predlagani algoritem s hierarhičnim združevanjem enot na podlagi vrednosti odvisnih spremenljivk odkrivanje zanimivih podskupin prevede na problem uvrščanja v skupine. Kandidatke za zanimive podskupine išče med vozlišči drevesa razvrščanja, ocenjuje pa jih s pomočjo neodvisnih spremenljivk z obstoječimi merami iz strojnega učenja, privzeto pa uporabi ploščino pod krivuljo ROC. Obnašanje algoritma bomo na seminarju primerjali s tehnikami napovednega razvrščanja in pokazali njegovo uporabnost na podatkih evropske družboslovne raziskave.