Procesy

Proces data cleansing krok po kroku

22.01.2026

Źródło zdjęcia: Laptop computer, Wikimedia Commons — Wikimedia Commons

Data cleansing to proces identyfikacji i korekty błędów, niespójności oraz braków w zbiorze danych przed jego wykorzystaniem w analizach lub modelach predykcyjnych.

Etap identyfikacji problemów

Pierwszym krokiem jest zidentyfikowanie problemów w danych — poprzez profilowanie zbioru i porównanie wyników z oczekiwanymi regułami jakości. Na tym etapie powstaje lista konkretnych problemów wymagających korekty.

Standaryzacja formatów

Kolejnym etapem jest standaryzacja formatów danych — na przykład ujednolicenie zapisu dat, numerów telefonów czy nazw miejscowości do jednego, spójnego formatu w całym zbiorze.

Deduplikacja rekordów

Deduplikacja polega na wykryciu i usunięciu lub scaleniu rekordów reprezentujących ten sam obiekt rzeczywisty, na przykład tego samego klienta zarejestrowanego dwukrotnie z niewielkimi różnicami w zapisie danych.

Uzupełnianie braków danych

W zależności od kontekstu, braki danych mogą być uzupełniane na podstawie reguł biznesowych, wartości domyślnych lub pozostawiane jako jawnie oznaczone braki — usuwanie rekordów z brakami powinno być traktowane jako ostateczność.

Walidacja skorygowanych danych

Ostatnim etapem jest ponowne profilowanie zbioru po zastosowaniu korekt, aby potwierdzić, że wprowadzone zmiany rzeczywiście poprawiły wskaźniki jakości danych, a nie wprowadziły nowych błędów.

Spis treści

Etap identyfikacji problemów Standaryzacja formatów Deduplikacja rekordów Uzupełnianie braków danych Walidacja skorygowanych danych

Powiązane

Powiązane materiały

Podstawy

Czym są metryki jakości danych

Narzędzia

Narzędzia do profilowania danych — przegląd kategorii

Referencje

Frameworki jakości danych — porównanie podejść