Near-duplicate Grouping and Deduping

Dagger identifies duplicate and near-duplicate documents. These determinations facilitate sampling and bulk coding of substantially similar document groups, such as recurring spreadsheets which differ in temporal and numerical content but not in substance. Near-deduping also facilitate quality-control checks on coding discrepancies between textually similar documents.