Kiểm tra thời gian chạy dòng lệnh Python

Submitted by tinhxleev2 on Mon, 06/21/2021 - 09:23

Để viết code Python hiệu quả thì bạn cần kiểm tra thời gian chạy, đây là một tiêu chí quan trọng. 

  • Việc kiểm tra sẽ giúp cho sự lựa chọn code với thời gian chạy tối ưu nhất. 
  • code hiệu quả đổng nghĩa với việc code nhanh hơn. 

Python sẵn có lệnh %timeit. 

Python có các lệnh phép thuật được thiết kế trên cả các Python syntax thông thường và các lệnh này bắt đầu với %.

Hiển thị tất các các lệnh phép thuật (magic commands) này với %lsmagic

Thế mạnh của NumPy arrays

Submitted by tinhxleev2 on Thu, 06/17/2021 - 09:19

Numpy array là một gói của của Python, thay thế cho list() các biến trong numpy array phải ĐỒNG NHẤT nghĩa là cùng một kiểu.

Nếu đưa vào np một list không đồng nhất, ví dụ int và float, np sẽ chuyển sang float. 

import numpy as np

list = [3, 4.2, 5]

thap_phan = np.array(list)

thap_phan.dtype

dtype('float64')

Trong khi list() của python không hỗ trợ các phép toán nhưng np thì có 

list ** 2 (trả lại lỗi)

Thư Viện Cơ Bản Sẵn Có Của Python

Submitted by tinhxleev2 on Wed, 06/16/2021 - 09:45

Kiểu dữ liệu Python

list, tuple, set, dict, và các kiểu khác

Hàm cơ bản, print(), len(), range(), round(), map(), zip(), enumerate()

Các modules os, sys, intertools, collections, math, ...

range()

Thay vì phải tạo thủ công một list 

nums = [1, 2, 3, 4, 5, 6, 7, 8, 9 ,10]

bạn sử dụng

nums_ranges = range(1, 11)

nums = list(nums_ranges)

print(nums)

Viết Python code một cách hiệu quả

Submitted by tinhxleev2 on Wed, 06/16/2021 - 08:59

Cho dù là chuyên viên phân tích dữ liệu khoa học hay kỹ sư dữ liệu dành phần lớn thời gian để thiết kế các pipeline, tự động hóa các quá trình làm sạch dữ liệu... bạn sẽ phải tuần theo các nguyên tắc khi viết code. Bài viết sau chỉ ra cách để bạn viết code Python hiệu quả. 

  • Cách viết Python code, gọn, nhanh và hiệu quả 
  • Hồ sơ code và những hạn chế
  • Loại bỏ những hạn chế và design pattern kém

Một code python viết hiệu quả là thời gian chay ngắn nhất (hay mã này chạy nhanh) và sử dụng tài nguyên ít nhất.

Kết Hợp Nhiều Bộ Dữ Liệu

Submitted by tinhxleev2 on Fri, 06/11/2021 - 08:37

Để thêm hàng từ cột này vào cột khác sử dụng

append()

df1.append(df2)

dùng ignore_indext = True để tự động đánh lại số hàng.

Ví dụ:

Lấy dữ liệu từ API

params = {"term":  "bookstore" "location": "Newyorks" }

first_result = requests.get(api_url,                                           

                            headers=headers,                                           

EDA

Submitted by tinhxleev2 on Mon, 06/07/2021 - 11:12

Bài viết hiện trên google (Google làm khá tốt việc gợi ý các bài viết theo từ khóa mà người dùng tìm kiếm)

Chất lượng dữ liệu 

Có khá nhiều vấn đề ở chất lượng dữ liệu. 

[7 Bước] Trở thành một chuyên viên phân tích dữ liệu khoa học

Submitted by tinhxleev2 on Mon, 05/31/2021 - 05:47

Bài này dịch từ bài viết của Aditya Agarwal, đăng trên medium và KDnuggets

Trở thành một chuyên viên phân tích dữ liệu khoa học là một con đường khá thú vị, nhưng dĩ nhiên nếu bạn theo học khối C thì bạn không thể học môn khoa học dữ liệu trong một năm hay sáu tháng, mà đó là cả một quá trình bạn phải dành nhiều thời gian và công sức. Bài viết sẽ vạch ra những kỹ năng và hướng dẫn bạn trở thành một chuyên viên phân tích dữ liệu khoa học đích thực.

Làm việc với nested JSONs

Submitted by tinhxleev2 on Fri, 05/28/2021 - 07:45

Bài trước, Giới thiệu JSON (Javascript object notation) giới thiệu sơ qua về JSON, JSON chưa những đối tướng với những cặp key và value (có thể là một JSON). Và JSON được "ổ" (nested) khi giá trị chính nó là JSON.

Một tính năng của JSON chính là dữ liệu có thể xếp ổ lại với nhau, một giá trị thuộc tính có thể bao gồm các cặp thuộc tính giá trị khác. Dữ liệu xếp ổ sẽ dễ dỡ hơn vào các cột df. pandas.io.json submodule là json_normalize, công cụ để viết và đọc JSON

Learing