Dublette (Datenbank)

Eine Dublette ist ein Datensatz in einer Datenbank, der redundant, d. h. mehrfach, vorhanden ist, dessen Redundanz aber aufgrund abweichender Schreibung nicht durch Prüfung auf gleiche Inhalte erkannt werden kann.

Bei einer Dublette handelt es sich nicht um Redundanz im Sinne der Informationstechnologie, also nicht um Redundanz, die aufgrund der Architektur des Systems absichtlich verursacht wird.

Dubletten entstehen insbesondere in Adressdatenbanken, und zwar dann, wenn dieselbe Person oder Gesellschaft mehrfach auf Basis unterschiedlicher Eingangsinformationen erfasst wird, mehrere Adressdatenbestände vereinigt werden oder die erfassten Personen oder Unternehmen ihren Namen wechseln.

Da Dubletten (insbesondere beim Massenversand) unnötige Kosten verursachen und negative Folgen für das Image haben können, wird mit entsprechender Software versucht, die Dubletten zu identifizieren und automatisch oder halbautomatisch zu bereinigen (Deduplikation). Hierbei kommen mehr oder weniger scharfe phonetische, musterbezogene oder assoziative Algorithmen zur Anwendung.

Auch in Material- und Produktdaten können Dubletten auftreten. Nach der Fusion zweier Unternehmen sind meist viele Bauteile in beiden Unternehmen vorhanden, jedoch in unterschiedlicher Schreibweise verzeichnet.