Procesy

Proces data cleansing krok po kroku

22.01.2026

Proces data cleansing krok po kroku

Źródło zdjęcia: Laptop computer, Wikimedia Commons — Wikimedia Commons

Data cleansing to proces identyfikacji i korekty błędów, niespójności oraz braków w zbiorze danych przed jego wykorzystaniem w analizach lub modelach predykcyjnych.

Etap identyfikacji problemów

Pierwszym krokiem jest zidentyfikowanie problemów w danych — poprzez profilowanie zbioru i porównanie wyników z oczekiwanymi regułami jakości. Na tym etapie powstaje lista konkretnych problemów wymagających korekty.

Standaryzacja formatów

Kolejnym etapem jest standaryzacja formatów danych — na przykład ujednolicenie zapisu dat, numerów telefonów czy nazw miejscowości do jednego, spójnego formatu w całym zbiorze.

Deduplikacja rekordów

Deduplikacja polega na wykryciu i usunięciu lub scaleniu rekordów reprezentujących ten sam obiekt rzeczywisty, na przykład tego samego klienta zarejestrowanego dwukrotnie z niewielkimi różnicami w zapisie danych.

Uzupełnianie braków danych

W zależności od kontekstu, braki danych mogą być uzupełniane na podstawie reguł biznesowych, wartości domyślnych lub pozostawiane jako jawnie oznaczone braki — usuwanie rekordów z brakami powinno być traktowane jako ostateczność.

Walidacja skorygowanych danych

Ostatnim etapem jest ponowne profilowanie zbioru po zastosowaniu korekt, aby potwierdzić, że wprowadzone zmiany rzeczywiście poprawiły wskaźniki jakości danych, a nie wprowadziły nowych błędów.

Powiązane

Powiązane materiały