Distance Queries from Sampled Data: Accurate and Efficient

Published on 2014-10-071482 Views

Edith Cohen

Distance queries are a basic tool in data analysis. They are used for detection and localization of change for the purpose of anomaly detection, monitoring, or planning. Distance queries are particula

Research Sessions

Related categories

Presentation

Distance Queries from Sampled Data: Accurate and Efficient00:00

Sampling in Data Analysis00:04

Data matrix: keys × instances01:39

Example: Social/Communication data02:44

Data from multiple days03:13

Matrix view keys × instances03:27

Common Queries03:41

Domain (subset) Queries - 105:39

Domain (subset) Queries - 206:03

Horvitz Thompson Estimator (1952) for Domain queries06:29

HT estimator for Domain Queries08:21

Distance Queries - 109:31

Distance Queries - 209:46

Distance Queries - 310:04

Distance Queries - 410:42

Distance Estimators11:19

Sampling schemes12:28

Samples of multiple instances (days)13:09

Coordinated Sampling of Instances13:54

Independent Sampling of Instances14:22

Our Estimators (coordinated samples)14:42

L1 distance from PPS samples15:46

L2 2 distance from PPS samples15:54

Summary16:25