Proces data cleansing krok po kroku
22.01.2026
Źródło zdjęcia: Laptop computer, Wikimedia Commons — Wikimedia Commons
Data cleansing to proces identyfikacji i korekty błędów, niespójności oraz braków w zbiorze danych przed jego wykorzystaniem w analizach lub modelach predykcyjnych.
Etap identyfikacji problemów
Pierwszym krokiem jest zidentyfikowanie problemów w danych — poprzez profilowanie zbioru i porównanie wyników z oczekiwanymi regułami jakości. Na tym etapie powstaje lista konkretnych problemów wymagających korekty.
Standaryzacja formatów
Kolejnym etapem jest standaryzacja formatów danych — na przykład ujednolicenie zapisu dat, numerów telefonów czy nazw miejscowości do jednego, spójnego formatu w całym zbiorze.
Deduplikacja rekordów
Deduplikacja polega na wykryciu i usunięciu lub scaleniu rekordów reprezentujących ten sam obiekt rzeczywisty, na przykład tego samego klienta zarejestrowanego dwukrotnie z niewielkimi różnicami w zapisie danych.
Uzupełnianie braków danych
W zależności od kontekstu, braki danych mogą być uzupełniane na podstawie reguł biznesowych, wartości domyślnych lub pozostawiane jako jawnie oznaczone braki — usuwanie rekordów z brakami powinno być traktowane jako ostateczność.
Walidacja skorygowanych danych
Ostatnim etapem jest ponowne profilowanie zbioru po zastosowaniu korekt, aby potwierdzić, że wprowadzone zmiany rzeczywiście poprawiły wskaźniki jakości danych, a nie wprowadziły nowych błędów.