Python

Exploratory Data Analysis in Python

Submitted by tinhxleev2 on Wed, 08/12/2020 - 10:06

Từ dữ liệu để có các câu trả lời?

Exploratory data analysis là quá trình khám phá bộ dữ liệu, trả lời những câu hỏi và trực quan hóa kết quả. 

EDA có các công cụ để làm sạch và củng cố dữ liệu, trực quan hóa các phân bổ và mối quan hệ giữa các biến, sử dụng regression model để dự đoán và giải thích. 

Để làm việc với dữ liệu thực, khám phá các bộ dữ liệu và thể hiện kết quả hấp dẫn bạn sẽ sử dụng các gói sau:Pandas, NumPy và SciPy, StatsModels dùng cho regression và Matplotlib để trực quan hóa. 

recordlinkage - Python

Submitted by tinhxleev2 on Mon, 08/10/2020 - 07:42

# Nhập gói recordlinkage

import recordlinkage

# Nhập gói pandas

import pandas

Thiết lập các dataframe cần sử dụng recordlinkage

df_a = pandas.DataFrame(df1)

df_b = pandas.DataFrame(df1)

indexer = recordlinkage.Index()

indexer.block('surname')

candidate_links = indexer.index(df_a, df_b)

Xử lý dữ liệu thiếu Python

Submitted by tinhxleev2 on Fri, 08/07/2020 - 06:53

Làm việc với dữ liệu thiếu là một trong những việc phổ biến nhất trong khoa học dữ liệu. Có nhiều kiểu dữ liệu thiếu và có khá nhiều cách để xử lý. 

Để kiểm tra giá trị thiếu sử dụng 

import matplotlib.pyplot as plot 

import missingno as msno

# Để kiểm tra giá trị thiếu sử dụng 

df.isna()

Tính toán số lượng giá trị thiếu bằng cột

df.isna().sum()

Trực quan hóa dữ liệu thiếu bằng 

msno.matrix(df)

plt.show()

Các lỗi thường gặp liên quan tới categorial variables

Submitted by tinhxleev2 on Thu, 08/06/2020 - 03:42

1. Giá trị không ổn định

  • Ví dụ:'co gia dinh', 'Co gia dinh','CHUA CO GIA DINH', 'chua co gia dinh'....để ý chữ in hoa và in thường hai hạng mục 'co gia dinh''Co gia dinh' là giống nhau.
  • Để xử lý trường hợp này df['tinh trang hon nhan'] = df['tinh trang hon nhan'].str.upper(), sau đó df[tinh trang hon nhan'].value_counts()

hay như

  • khoảng trống

'co gia dinh ', ' co gia dinh'

Tags

seaborn: Trực quan hóa dữ liệu thông kê (statistical data visualization)

Submitted by tinhxleev2 on Thu, 07/23/2020 - 07:45

Seaborn là một thư viện trực quan hóa dữ liệu trong Python, thư viện này được xây dựng dựa trên nền Matplotlib. Seasborn cung cấp giao diện ở mức độ cao để vẽ các đồ họa thống kê hấp dẫn và chứa đựng nhiều thông tin. 

Giới thiệu chung

Hướng tài và cài đặt gói seaborn

Xem các hình ảnh có thể được tạo bởi seaborn

Hướng dẫn 

API 

Git repository

Stackoverflow cho một số lỗi

Sử dụng regular expressions để làm sạch strings

Submitted by tinhxleev2 on Thu, 07/23/2020 - 04:08

Thao túng strings 

  • Khá nhiều việc khi làm sạch dữ liệu liên quan tới thao túng strings
  • Dữ liệu của thế giới thì hầu hết không theo một cấu trúc nhất định
  • Thao túng strings (chữ) để các bộ dữ liệu trở nên tương xứng với nhau - để có thể thực hiện việc phân tích trên từng bộ hoặc kết hợp với nhau

Trước hết xem qua Validate Values

Ví dụ

Tags

Làm Sạch Dữ Liệu Python

Submitted by tinhxleev2 on Wed, 07/22/2020 - 07:51

Trong quá trình phân tích dữ liệu, bạn sẽ gặp phải những khía cạnh khó nhằn của việc làm sạch dữ liệu. Thông thường các nhà khoa học dữ liệu sử dụng tới 80% thời gian của họ để làm sạch và thao túng dữ liệu còn lại 20% thời gian để phân tích. Thời gian sử dụng để làm sạch dữ liệu là tất yếu vì phân tích dữ liệu BẨN có thể dẫn tới những kết luận không chính xác. 

Tags

Làm sạch dữ liệu trong Python

Submitted by tinhxleev2 on Wed, 06/17/2020 - 11:22

Khám phá dữ liệu

Bạn tiếp cận với một bộ dữ liệu hoàn toàn mới và nóng lòng muốn bắt đầu khám phá nó ngay. Nhưng bắt đầu từ đâu và làm thế nào để bảo đảm bộ dữ liệu này 'sạch'?. Trong bài này mình sẽ giới thiệu cách làm sạch dữ liệu trong Python. Bạn sẽ tìm hiểu cách khám phá dữ liệu, chuẩn đoán các outliers, số liệu thiếu và các hàng bị trùng lặp. 

Sử dụng .map() với một dictionary

Submitted by tinhxleev2 on Mon, 05/11/2020 - 07:51

Phương pháp .map() được dùng để chuyển đổi giá trị theo một dictionary của Python. 

Ví dụ một sử dụng .map() đó là sử dung một dictionary để map các giá trị ở một cột vào giá trị mình tự đặt, sau đó giao giá trị mình mới đặt vào một cột mới.

Tags

Learing