Extract Transform Load (ETL) ist ein Prozess, bei dem Daten aus mehreren gegebenenfalls unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt werden. Extraktion der relevanten Daten aus verschiedenen Quellen Transformation der Daten in das Schema und Format der Zieldatenbank Laden. Anders erklärt. Verschiedene Datenquellen lassen sich über einen ETL-Prozess Extrahieren und so Aufbereiten das sie sich in ein Data Warehouse integrieren lassen. Quelle: Wikipedia
Das sind die drei Hauptphasen des ETL-Prozesses
Extraktion: Die Extraktion ist der erste Schritt des ETL-Prozesses. Hierbei erfolgt die Auswahl der Daten in den verschiedenen Quellsystemen und die Vorbereitung für die Transformationsphase. In den meisten Fällen extrahiert der Prozess nur Teilbereiche aus einzelnen Quelldatenbanken. Extraktionen finden regelmäßig statt, um das Data Warehouse kontinuierlich mit aktualisierten Daten zu versorgen. Auch ereignisgesteuerte oder anfragegesteuerte Extraktionen sind möglich.
Transformation: Der Extraktion schließt sich die Phase der Transformation an. Die gelieferten Daten werden an das Format und das Schema der Zieldatenbank angepasst. Der Transformationsprozess durchläuft wiederum mehrere Einzelschritte. Diese Einzelschritte können beispielsweise folgende sein:
- Festlegung grundlegender Aspekte der Formatierung
- Bereinigung fehlerhafter Daten
- Prüfen auf ähnliche Informationen und Datenduplikate mit anschließendem Löschen und Ausschließen dieser Daten
- Gruppieren, Sortieren und Aggregieren der Daten
- finale Anpassung an Zielformate und Zielschemata
Laden: Der dritte und letzte Schritt ist das Laden der zuvor geprüften und angereicherten Daten. In diesem Schritt erfolgt die eigentliche Integration in die Zieldatenbank oder das Data Warehouse. Die Daten werden physisch zum Ziel verschoben, ohne die Datenbank beim Laden lange zu blockieren. Die Integrität der geladenen Daten ist sicherzustellen. Durch ausführliches Protokollieren und Logging sind sämtliche Änderungen im Zielsystem dokumentiert. Über die Protokollierung ist es möglich, bei Bedarf alte Datenstände wiederherzustellen.
- Datenspeicherung in einem Data Warehouse
- Datenbereitstellung für BI-Anwendungen
- Datenextraktion aus verteilten Datenbankumgebungen oder cloudbasierten Datenbanken
- Migration von Daten zwischen verschiedenen Anwendungen
- Replikation von Daten zu Sicherungs- und Redundanzzwecken
http://smartstore.com/de/kontakt