Relevant Overlapping Subspace Clusters on Categorical Data

Published on 2014-10-072308 Views

Xiao He

Clustering categorical data poses some unique challenges: Due to missing order and spacing among the categories, selecting a suitable similarity measure is a difficult task. Many existing techniques r

Research Sessions

Related categories

Presentation

Relevant Overlapping Subspace Clusters on Categorical Data00:00

Motivation00:23

Unique challenge for categorical data00:28

Redundancy and parameters challenge - 100:51

Redundancy and parameters challenge - 201:31

Redundancy and parameters challenge - 301:56

Redundant Overlapping Clusters - 102:20

Redundant Overlapping Clusters - 202:35

Questions to be answered in this work03:01

Optimization Goal Compression03:36

Basic Idea03:40

Compress data modeled by clustering - 104:08

Compress data modeled by clustering - 204:30

Compress data modeled by clustering - 304:39

Compress data modeled by clustering - 405:09

Example of using compression to evaluate clustering05:33

Algorithm ROCAT05:54

Minimum Coding Problem is NP-hard05:59

Finding large pure subspace clusters first06:54

Searching phase - 107:12

Searching phase - 207:23

Searching phase - 307:27

Searching phase - 407:38

Searching phase - 507:40

Searching phase - 607:47

Searching phase - 707:50

Combining phase08:09

Reassinging phase08:21

Complexity08:44

Experiments09:07

Synthetic data sets09:14

Cluster Quality09:46

Subspace quality10:25

Robustness against outliers10:30

Results on real data10:55

Splice-junction Gene Sequences Data Set11:14

Results on Splice12:00

Summary12:34

Contributions12:39

Thank you!13:34