Exploratory Data Analysis in Python

Submitted by tinhxleev2 on Wed, 08/12/2020 - 10:06

Từ dữ liệu để có các câu trả lời?

Exploratory data analysis là quá trình khám phá bộ dữ liệu, trả lời những câu hỏi và trực quan hóa kết quả. 

EDA có các công cụ để làm sạch và củng cố dữ liệu, trực quan hóa các phân bổ và mối quan hệ giữa các biến, sử dụng regression model để dự đoán và giải thích. 

recordlinkage - Python

Submitted by tinhxleev2 on Mon, 08/10/2020 - 07:42

# Nhập gói recordlinkage

import recordlinkage

# Nhập gói pandas

import pandas

Thiết lập các dataframe cần sử dụng recordlinkage

df_a = pandas.DataFrame(df1)

df_b = pandas.DataFrame(df1)

indexer = recordlinkage.Index()

indexer.block('surname')

candidate_links = indexer.index(df_a, df_b)

Xử lý dữ liệu thiếu Python

Submitted by tinhxleev2 on Fri, 08/07/2020 - 06:53

Làm việc với dữ liệu thiếu là một trong những việc phổ biến nhất trong khoa học dữ liệu. Có nhiều kiểu dữ liệu thiếu và có khá nhiều cách để xử lý. 

Để kiểm tra giá trị thiếu sử dụng 

import matplotlib.pyplot as plot 

import missingno as msno

# Để kiểm tra giá trị thiếu sử dụng 

df.isna()

Tính toán số lượng giá trị thiếu bằng cột

df.isna().sum()

Trực quan hóa dữ liệu thiếu bằng 

msno.matrix(df)

plt.show()

Các lỗi thường gặp liên quan tới categorial variables

Submitted by tinhxleev2 on Thu, 08/06/2020 - 03:42

1. Giá trị không ổn định

  • Ví dụ:'co gia dinh', 'Co gia dinh','CHUA CO GIA DINH', 'chua co gia dinh'....để ý chữ in hoa và in thường hai hạng mục 'co gia dinh''Co gia dinh' là giống nhau.
  • Để xử lý trường hợp này df['tinh trang hon nhan'] = df['tinh trang hon nhan'].str.upper(), sau đó df[tinh trang hon nhan'].value_counts()

hay như

  • khoảng trống

'co gia dinh ', ' co gia dinh'

Tags

Cách cài đặt, chạy và kết nối Jupyter Notebook trên server xong truy cập trên web

Submitted by tinhxleev2 on Fri, 07/24/2020 - 04:30

Trong bài viết này mình sẽ cài Jupyter notebook trên Serverpilot, từ đó mình có thể truy cập note book này trên web riêng.

Giới thiệu

Jupyter Notebook là một ứng dụng web tương tác, mã nguồn mở, cho phép người dùng có thể viết, chạy mã của hơn 40 ngôn ngữ lập trình bao gồm Python, Julia và Scala. 

Hướng dẫn cài đặt và sử dụng Jupiter notebook

Submitted by tinhxleev2 on Fri, 07/24/2020 - 04:03

Xem qua bài này hướng dẫn cài Python và các gói đi kèm: http://ledinhtinh.com/article/huong-dan-cai-dat-va-su-dung-python-tren-windows

Vào thư mục 

C:\Users\DELL\AppData\Local\Programs\Python\Python38-32\Scripts>

Mở file local.bat sau đó dùng dòng lệnh: pip install notebook

Sau khi cài đặt thành công xong thì dùng lệnh jupyter notebook để mở notebook trên trình duyệt

Learing