Làm sạch dữ liệu trong Python

Submitted by tinhxleev2 on Wed, 06/17/2020 - 11:22

Khám phá dữ liệu

Bạn tiếp cận với một bộ dữ liệu hoàn toàn mới và nóng lòng muốn bắt đầu khám phá nó ngay. Nhưng bắt đầu từ đâu và làm thế nào để bảo đảm bộ dữ liệu này 'sạch'?. Trong bài này mình sẽ giới thiệu cách làm sạch dữ liệu trong Python. Bạn sẽ tìm hiểu cách khám phá dữ liệu, chuẩn đoán các outliers, số liệu thiếu và các hàng bị trùng lặp. 

  1. Khám dữ liệu để làm sạch
  2. Tải và xem dữ liệu
  3. Khám kỹ dữ liệu
  4. Phân tích dữ liệu giải thích
  5. Tính toán tổng hợp thống kê
  6. Tính toán thường xuyên cho dữ liệu xếp theo mục
  7. Đồ họa phân tích dữ liệu giải thích
  8. Đồ họa đơn biến với histograms
  9. Đồ họa đa biến với boxplots
  10. Đồ họa đa biến với scatter plots

1. Khám dữ liệu để làm sạch liên quan tới chuẩn bị dữ liệu để phân tích, và thông thường dữ liệu không bao giờ 'gọn' cả

Thường thì khi phân tích dữ liệu chúng ta hay gặp các vấn đề phổ biến sau 

  • Tên cột không nhất quán, cột viết hoa cột viết thường là một ví dụ điển hình
  • Dữ liệu thiếu (NaN)
  • Outliers (điểm dị biệt)
  • Hàng lặp lại
  • Không gọn gàng
  • Cần phải xử lý cột dữ liệu
  • Kiểu cột có thể có dấu hiệu cho số liệu không như dự đoán

Để xem qua bộ dữ liệu bạn sẽ làm quen với một số dòng lệnh sau, áp dụng cho dataframe df

# In ra 5 hàng đầu tiên của df

print(df.head())

# In ra 5 hàng cuối cùng của df

print(df.tails())

# In ra số hàng và số cột của df

print(df.shape())

# In ra tên cột của df

print(df.columns)

Các dòng lệnh này rất hữu dụng để nhận diện một số dữ liệu thiếu hay không gọn tiềm ẩn. 

Có một dòng lệnh khác đó là 

df.info()

Phương pháp .info() cung cấp thông tin quan trọng về df, như số hàng, số cột, giá trị bị thiếu ở mỗi cột và dữ liệu lưu ở từng cột. 

Thêm một phương pháp khác nữa để thống kê dữ liệu từng cột .describe()