Ich verwende SSIS in Visual Studio 2008, um eine unscharfe Gruppierung auf einem Kundentisch durchzuführen.
Säulen ICH WÜRDE Name Email usw
Ich habe einige doppelte Kunden in der Tabelle mit der gleichen E-Mail-Adresse, in der ich derzeit die Fuzzy-Gruppierung verwenden kann, um die Duplikate für die manuelle Überprüfung zu identifizieren.
Ich habe auch einige Datensätze, die fast doppelt vorhanden sind, aber zusätzliche Interpunktion haben.
z.B
ID Name Email
1 bob bob.bob@bob.com
2 bob bob.bob@bob.com
3 bob bob..bob@bob.com
7 tom tom@tom.com
9 frog tom@tom..com
Momentan kann ich Id 1 und 2 bekommen, um zusammenzupassen, aber ich würde wollen, dass 1, 2 und 3 übereinstimmen und auf demselben Schlüssel gruppiert werden
und 7 und 9 passen auch zusammen, weil ich die doppelten Punkte ignorieren und es nur als einen Punkt sehen möchte. Auch der Name spielt keine Rolle, derzeit ist nur die E-Mail-Adressspalte wichtig.
Anregungen und Hilfe bitte.
Antworten:
0 für die Antwort № 1Verwenden Sie vor Ihrer Fuzzy-Gruppierung eine abgeleitete Spaltenumwandlung, um unerwünschte Zeichen zu entfernen:
REPLACE([Email], "..", ".")