/ / SSIS 2008 Fuzzy-Gruppierung, um doppelte Kontakte zu identifizieren, aber Interpunktion ignorieren - ssis, Gruppierung, Duplikatdaten, Fuzzy-Suche

SSIS 2008 Fuzzy-Gruppierung zur Identifizierung doppelter Kontakte, jedoch ohne Interpunktion - sis, Gruppierung, Dubletten-Daten, Fuzzy-Suche

Ich verwende SSIS in Visual Studio 2008, um eine unscharfe Gruppierung auf einem Kundentisch durchzuführen.

Säulen ICH WÜRDE Name Email usw

Ich habe einige doppelte Kunden in der Tabelle mit der gleichen E-Mail-Adresse, in der ich derzeit die Fuzzy-Gruppierung verwenden kann, um die Duplikate für die manuelle Überprüfung zu identifizieren.

Ich habe auch einige Datensätze, die fast doppelt vorhanden sind, aber zusätzliche Interpunktion haben.

z.B

    ID   Name  Email
1    bob   bob.bob@bob.com
2    bob   bob.bob@bob.com
3    bob   bob..bob@bob.com
7    tom   tom@tom.com
9    frog  tom@tom..com

Momentan kann ich Id 1 und 2 bekommen, um zusammenzupassen, aber ich würde wollen, dass 1, 2 und 3 übereinstimmen und auf demselben Schlüssel gruppiert werden

und 7 und 9 passen auch zusammen, weil ich die doppelten Punkte ignorieren und es nur als einen Punkt sehen möchte. Auch der Name spielt keine Rolle, derzeit ist nur die E-Mail-Adressspalte wichtig.

Anregungen und Hilfe bitte.

Antworten:

0 für die Antwort № 1

Verwenden Sie vor Ihrer Fuzzy-Gruppierung eine abgeleitete Spaltenumwandlung, um unerwünschte Zeichen zu entfernen:

REPLACE([Email], "..", ".")