Hilfe bei der Programmierung, Antworten auf Fragen / Ssis / SSIS 2008 Fuzzy-Gruppierung, um doppelte Kontakte zu identifizieren, aber Interpunktion ignorieren - ssis, Gruppierung, Duplikatdaten, Fuzzy-Suche

SSIS 2008 Fuzzy-Gruppierung zur Identifizierung doppelter Kontakte, jedoch ohne Interpunktion - sis, Gruppierung, Dubletten-Daten, Fuzzy-Suche

Ich verwende SSIS in Visual Studio 2008, um eine unscharfe Gruppierung auf einem Kundentisch durchzuführen.

Säulen ICH WÜRDE Name Email usw

Ich habe einige doppelte Kunden in der Tabelle mit der gleichen E-Mail-Adresse, in der ich derzeit die Fuzzy-Gruppierung verwenden kann, um die Duplikate für die manuelle Überprüfung zu identifizieren.

Ich habe auch einige Datensätze, die fast doppelt vorhanden sind, aber zusätzliche Interpunktion haben.

z.B

    ID   Name  Email
1    bob   bob.bob@bob.com
2    bob   bob.bob@bob.com
3    bob   bob..bob@bob.com
7    tom   tom@tom.com
9    frog  tom@tom..com

Momentan kann ich Id 1 und 2 bekommen, um zusammenzupassen, aber ich würde wollen, dass 1, 2 und 3 übereinstimmen und auf demselben Schlüssel gruppiert werden

und 7 und 9 passen auch zusammen, weil ich die doppelten Punkte ignorieren und es nur als einen Punkt sehen möchte. Auch der Name spielt keine Rolle, derzeit ist nur die E-Mail-Adressspalte wichtig.

Anregungen und Hilfe bitte.

Antworten:

0 für die Antwort № 1

Verwenden Sie vor Ihrer Fuzzy-Gruppierung eine abgeleitete Spaltenumwandlung, um unerwünschte Zeichen zu entfernen:

REPLACE([Email], "..", ".")

Verwandte Fragen

So erstellen Sie eine temporäre Tabelle in SSIS mit einer Identitätsspalte und einem dynamischen Startwert - ssis

Migrieren Sie SSIS dtsx in die Data Factory-Pipeline - ssis, azure-data-factory

Schließen Verbindung nach Abschluss in SSIS - ssis, dts

SSIS-Paket-Task-Variablenpfad ausführen - ssis

SSIS Flat-Datei konnte nicht mit Null (/ X00) Wert umgehen? - ssis

C # -Webanwendungscode in einem SSIS-Paket zuordnen - sssis

Paketkonfigurationen funktionieren nicht SSIS 2012 - ssis, ssis-2012

SQL Integration Services: XMLA oder SSIS zum Laden von CSV - sql, ssis, ddl, xmla

Ignorieren Sie die Fuzzy-Gruppierung für bestimmte Wörter - sql, ssis, business-intelligence

SSIS-Konvertierung zum Datum - sql, ssis

Beste Abstimmschritte für SSIS-Pakete mit SQL-Tasks ausführen [geschlossen] - sql-server, tsql, ssis, ssis-2012, ssis-2008

Kann / Wie kann ich feststellen, welcher Schritt in einem SSIS-Paket in SSIS-Protokollen fehlgeschlagen ist? - SQL-Server, ssis

SSIS-Paket OLEDB Source Timeout-Eigenschaft funktioniert nicht - SQL-Server, SQL-Server-2008, SQL-Server-2008-R2, SSIS-2012, SSIS-2008

SSIS Redirect Duplicate / Fehler Records - SQL-Server, SSIS

SSIS FTP Task Fehler - SQL-Server, SSIS

Warum, wenn SSIS vom SSMS (TASK / IMPORT) verwendet wird, sind Trigger nicht aktiviert - sql-server, sql-server-2008, ssis, ssms

Vorteile / Gründe für die Verwendung von .NET NT-Diensten über SSIS-Pakete, für die Datenintegration in SQL Server -. NET, SSIS

Fuzzy Cellular Automata in Matlab - Matlab, Fuzzy-Logik, zelluläre Automaten

Elastic Search: Mehrere Abfragen und Boosting - elasticsearch

effizienteste Möglichkeit, Suchergebnisse nach String-Ähnlichkeit zu gruppieren - Algorithmus, Suche, E-Commerce, Gruppierung, Fuzzy-Suche