Xử lý dữ liệu thiếu Python

Submitted by tinhxleev2 on Fri, 08/07/2020 - 06:53

Làm việc với dữ liệu thiếu là một trong những việc phổ biến nhất trong khoa học dữ liệu. Có nhiều kiểu dữ liệu thiếu và có khá nhiều cách để xử lý. 

Để kiểm tra giá trị thiếu sử dụng 

import matplotlib.pyplot as plot 

import missingno as msno

# Để kiểm tra giá trị thiếu sử dụng 

df.isna()

Tính toán số lượng giá trị thiếu bằng cột

df.isna().sum()

Trực quan hóa dữ liệu thiếu bằng 

msno.matrix(df)

plt.show()

Các lỗi thường gặp liên quan tới categorial variables

Submitted by tinhxleev2 on Thu, 08/06/2020 - 03:42

1. Giá trị không ổn định

  • Ví dụ:'co gia dinh', 'Co gia dinh','CHUA CO GIA DINH', 'chua co gia dinh'....để ý chữ in hoa và in thường hai hạng mục 'co gia dinh''Co gia dinh' là giống nhau.
  • Để xử lý trường hợp này df['tinh trang hon nhan'] = df['tinh trang hon nhan'].str.upper(), sau đó df[tinh trang hon nhan'].value_counts()

hay như

  • khoảng trống

'co gia dinh ', ' co gia dinh'

Tags

Cách cài đặt, chạy và kết nối Jupyter Notebook trên server xong truy cập trên web

Submitted by tinhxleev2 on Fri, 07/24/2020 - 04:30

Trong bài viết này mình sẽ cài Jupyter notebook trên Serverpilot, từ đó mình có thể truy cập note book này trên web riêng.

Giới thiệu

Jupyter Notebook là một ứng dụng web tương tác, mã nguồn mở, cho phép người dùng có thể viết, chạy mã của hơn 40 ngôn ngữ lập trình bao gồm Python, Julia và Scala. 

Hướng dẫn cài đặt và sử dụng Jupiter notebook

Submitted by tinhxleev2 on Fri, 07/24/2020 - 04:03

Xem qua bài này hướng dẫn cài Python và các gói đi kèm: http://ledinhtinh.com/article/huong-dan-cai-dat-va-su-dung-python-tren-windows

Vào thư mục 

C:\Users\DELL\AppData\Local\Programs\Python\Python38-32\Scripts>

Mở file local.bat sau đó dùng dòng lệnh: pip install notebook

Sau khi cài đặt thành công xong thì dùng lệnh jupyter notebook để mở notebook trên trình duyệt

seaborn: Trực quan hóa dữ liệu thông kê (statistical data visualization)

Submitted by tinhxleev2 on Thu, 07/23/2020 - 07:45

Seaborn là một thư viện trực quan hóa dữ liệu trong Python, thư viện này được xây dựng dựa trên nền Matplotlib. Seasborn cung cấp giao diện ở mức độ cao để vẽ các đồ họa thống kê hấp dẫn và chứa đựng nhiều thông tin. 

Giới thiệu chung

Hướng tài và cài đặt gói seaborn

Xem các hình ảnh có thể được tạo bởi seaborn

Hướng dẫn 

API 

Git repository

Stackoverflow cho một số lỗi

Sử dụng regular expressions để làm sạch strings

Submitted by tinhxleev2 on Thu, 07/23/2020 - 04:08

Thao túng strings 

  • Khá nhiều việc khi làm sạch dữ liệu liên quan tới thao túng strings
  • Dữ liệu của thế giới thì hầu hết không theo một cấu trúc nhất định
  • Thao túng strings (chữ) để các bộ dữ liệu trở nên tương xứng với nhau - để có thể thực hiện việc phân tích trên từng bộ hoặc kết hợp với nhau

Trước hết xem qua Validate Values

Ví dụ

Tags

Làm Sạch Dữ Liệu Python

Submitted by tinhxleev2 on Wed, 07/22/2020 - 07:51

Trong quá trình phân tích dữ liệu, bạn sẽ gặp phải những khía cạnh khó nhằn của việc làm sạch dữ liệu. Thông thường các nhà khoa học dữ liệu sử dụng tới 80% thời gian của họ để làm sạch và thao túng dữ liệu còn lại 20% thời gian để phân tích. Thời gian sử dụng để làm sạch dữ liệu là tất yếu vì phân tích dữ liệu BẨN có thể dẫn tới những kết luận không chính xác. 

Tags

Python | Pandas DataFrame.astype()

Submitted by tinhxleev2 on Wed, 07/22/2020 - 04:35

Python là một ngôn ngữ hàng đầu để phân tích dữ liệu, chủ yếu là vì các gói được phát triển coi dữ liệu là trung tâm. Pandas là một trong những gói làm cho việc nhập và phân tích dữ liệu trở lên dễ dàng hơn. 

DataFrame.astype() là một phương pháp nhắm đối tượng pandas tới một kiểu dữ liệu xác định ví dụ như dữ liệu số hay dữ liệu chữ (string), chức năng này cũng cung cấp khả năng chuyển đổi bất kỳ một cột nào thanh một dữ liệu kiểu phân loại.  

Learing