Trực Quan Hóa Dữ Liệu Với SEABORN

Submitted by tinhxleev2 on Sat, 12/26/2020 - 03:02

SEABORN là gì

  • Tương tự như matplotlib, seaborn là một thư viện của python dùng để trực quan hóa dữ liệu.
  • Dùng seaborn dễ dàng tạo các bảng biểu, với chỉ một vài dòng code

Để dễ cho bạn hình dung dưới đây là quá trình phân tích một bộ dữ liệu

Tự động tạo plot

Submitted by tinhxleev2 on Fri, 12/25/2020 - 04:43

Một trong những điểm mạnh của Matplotlib đó là tự động ứng biến với dữ liệu mà nó nhận vào. Ví dụ bạn có một bộ dữ liệu với một số lượng các hạng mục chưa biết bạn vẫn có thể tạo một bar plot cho từng hạng mục một. 

import matplotlib.pyplot as plt

fig, ax = plt.subplots()

# Loop qua từng hạng mục 

for thanh_phan in cac_thanh_phan:

# Tách những hàng trong cac_thanh_phan

 df2 = df[df["cac_hang_muc"] == thanh_phan]

Hướng dẫn chọn kiểu màu cho plot - Python

Submitted by tinhxleev2 on Fri, 12/25/2020 - 03:10

Bạn đã có một phương pháp nào đó để phân tích bộ dữ liệu rồi, bước tiếp theo cũng vô cùng quan trọng đó là hiện thị plot - thể hiện kết quả trực quan một các dễ hiểu và logic nhất. 

Và sau đây là một số hướng dẫn, có thể gọi là nguyên tắc chọn kiểu cách cho plot trong Python

Một số lưu ý khi làm việc với dữ liêu ngày - date, time, year - Pandas

Submitted by tinhxleev2 on Wed, 12/23/2020 - 03:25

Thông thường khi làm việc với bộ dữ liệu đặc biệt dữ liệu bán hàng, bạn sẽ tiếp cận với dữ liệu thời gian, đây là một kiểu dữ liệu được định nghĩa trong Python.

Định dạng dữ liệu thời gian - date, time, year.

Sử dụng to_datetime

1. Chuyển dữ liệu ngày tháng sáng chuẩn ISO utc - vị dụ dưới đây mình chuyển cột 'Date' lưu dữ liệu thời gian, chuyển sang chuẩn ISO.

df['Date'] = pd.to_datetime(df['Date'], utc=True)

SQL trong 3 ngày

Submitted by tinhxleev2 on Thu, 12/17/2020 - 08:15

SELECT 

FROM 

WHERE

GROUP BY 

HAVING COUNT

ORDER BY 

SQL còn sử dụng JOIN để lấy dữ liệu từ 2 bảng khác nhau, thông thường bạn sẽ không làm việc với một bảng và sẽ phải lấy dữ liệu từ nhiều bảng khác nhau 

# ở đây bạn chọn 2 cột từ 2 bảng khác nhau, title từ bảng films và imbd_score từ bảng reviews, mình muốn xem tên bộ phim To Kill a Mockingbird có điểm đánh giá bao nhiêu, ở đâyy bảng fimls không có điểm đánh giá imdb.

SELECT title, imdb_score

# Chọn từ films

Lấy dữ liệu tên và thông tin sản phẩm trên url bằng Python

Submitted by tinhxleev2 on Fri, 12/11/2020 - 05:57

Mình sẽ dùng Beautiful Soup để lấy dữ liệu về từ URL này https://www.aptx.com/product-listing?product_category=431

Có tổng cộng 73 sản phẩm, mình chỉ cần lấy tiêu đề của từng sản phẩm một. 

# Mình sẽ tạo một function

def get_data(pageNo):

Thiết lập một Local Dev Site sử dụng Lando, Docker và Drupal

Submitted by tinhxleev2 on Tue, 12/08/2020 - 10:01

Mình không thực sự là một Drupal Dev nhưng trong quá trình học tập và làm việc mình phải thiết lập một số Web có nền tảng là Drupal. 

Bài viết sau giới thiệu cách cơ bản để thiết lập một Web Drupal nếu bạn đang phát triển nhiều Web và khi cần có thể chuyển từ web này sang web khác. 

Sử dụng Lando để thiết lập một local site cho việc phát triển sau đó đẩy lên GitLab từ đó nếu bạn có một Live Site có thể pull về từ GitLab.

Bước 1: Tải Drupal

Learing