Min-Sum Clustering of Protein Sequences with Limited Distance Information

Published on 2011-10-173220 Views

Konstantin Voevodski

We study the problem of efficiently clustering protein sequences in a limited information setting. We assume that we do not know the distances between the sequences in advance, and must query them dur

SIMBAD 2011 - Venice

Related categories

Presentation

Min-Sum Clustering of Protein Sequences with Limited Distance Information00:00

Outline: Motivation00:07

Motivation00:12

Growth of GenBank00:28

Clustering with Limited Information - 100:42

Clustering with Limited Information - 201:02

Clustering with Limited Information - 301:30

One Versus all Distance Queries01:53

Outline: Clustering Accuracy02:28

Accuracy02:36

Objective Functions for Clustering - 103:12

Objective Functions for Clustering - 203:39

Approximation Stability Property - 104:09

Approximation Stability Property - 205:15

Clustering with Limited Information - 405:42

Outline: Algorithm Overview and Analysis06:05

Algorithm Overview06:16

Algorithm Description06:30

Theoretic Results - 107:39

Proof Outline08:21

Min-Sum Structure08:47

Theoretic Results - 209:50

Outline: Computational Experiments10:55

Computational Experiments - 111:03

Computational Experiments - 211:48

Computational Experiments - 312:08

Computational Experiments - 412:53

Computational Experiments - 514:26

Future Directions14:55

Outline16:41

Thank you!16:45