Inwiefern sind NoSQL-Datenbanken beim Data Mining sinnvoller als OLAP-Datenbanken oder wie wenig sinnvoll?
Hat man den Vorteil, dass man aus riesigen Datenmengen schnell Daten abrufen kann, aber auch eine schemalose Datenbank hat?
Antworten:
3 für die Antwort № 1Es geht um die erweiterten Abfragefunktionen
Und NoSQL-Datenbanken sind eher nutzlos normalerweise hier.
Sie sind für konzipiert extrem primitive Abfragen wie Schlüsselwertspeicherung.
Aber Sie können nicht viel Analyse damit machen.
Eine für Data Mining geeignete Datenbank müsste Folgendes ermöglichen:
- ähnliche Datensätze (k nächste Nachbarn) mit domänenspezifischen Ähnlichkeitsfunktionen finden
- Nächster-Nachbar-Self-Joins, Radius-Self-Joins
- Paarweise Vergleiche
- Optimierung von mathematischen Gleichungen und schnelle Vektormathematik, vorzugsweise mit GPU-Offloading
Beim ETL-Abbau von Datenbanken werden folgende Aufgaben ausgeführt:
- extrahiere, was sie brauchen
SELECT
- wandle es in das gewünschte Schema um
- Laden Sie es aus der Datenbank in die Data Mining-Anwendung
d.h. die Datenbank tut ETL, aber das Data Mining passiert draußen.