Giới thiệu APIs

Submitted by tinhxleev2 on Wed, 05/26/2021 - 07:12

API là viết tắt của Application Programming Interface, có thể hiểu là chương trình giao diện của một ứng dụng, nó định nghĩa cách thức một ứng ứng giao tiếp với các ứng dụng khác, hoặc ngược lại. 

Đây là cách thức lấy dữ liệu từ một ứng dụng, mà không biết trong csdl chi tiết có gì. 

Requests

Gửi và lấy dữ liệu từ trang web vì dụ Amazon có API để dev lấy dữ liệu như giá, đánh giá sản phẩm, đăc biết requests không buộc với bất ký API nào 

Sử dụng requests.get()

Các từ khóa đối số như 

Các vấn đề với việc giảng dạy code và nó cần được thay đổi ra sao?

Submitted by tinhxleev2 on Wed, 05/26/2021 - 05:58

Bài này mình dịch từ techrepublic.

Sẽ hơi khó để trở thành một chuyên viên phát triển phần mềm, và những coders có ý chí lại không được dạy những kỹ năng và giá trị mà nhà tuyền dụng hy vọng, một CTO từng phát biểu.

Dường như tất cả mọi người đều muốn trở thành coders, bởi lương cao, sẵn việc và cơ hội làm việc cho các hãng lớn và càng nhiều người tìm kiếm cơ hội trong lĩnh vực phát triển phần mềm. 

Sự phổ biển của ngành này, ghi dấu ấn đột phá trong năm 2020, trong giai đoạn dịch bệnh covid-19, cũng dẫn tới sự bùng nổ số lượng khóa học online. 

Khác biệt của chuyên viên dữ liệu khoa học/kỹ sư dữ liệu với các ứng viên khác

Submitted by tinhxleev2 on Mon, 05/24/2021 - 05:49

Một số câu hỏi để xem bạn là chuyên viên dữ liệu khoa học/kỹ sư dữ liệu khi ứng tuyển vào một vị trí có gì khác biệt so với các ứng viên khác.

Cho người mới bắt đầu xin vào ngành.

Tải nhiều bảng với joins

Submitted by tinhxleev2 on Thu, 05/20/2021 - 07:23

Một tính năng của relational database chính là các bảng có thể kết nối với nhau thông qua những key, như ví dụ dưới đây, có bảng Users, Tags và Ratings, mỗi bản ghi của Ratings hay Tags đều có một key là id để nhận diện và kết nối với một người dùng trong bảng Users. Khi xây dựng pipeline dữ liệu kỹ sư dữ liệu sẽ không chỉ làm việc với 1 bảng mà nhiều bảng kết nối thông qua keys. 

Bản ghi là một lần dữ liệu được nhập vào bảng, ví dụ khi một người dùng đánh giá bộ phim thì một bản ghi được ghi vào bảng Ratings ở đó chứa các thông tin như dưới đây.

Các truy vấn SQL phức tạp

Submitted by tinhxleev2 on Wed, 05/19/2021 - 07:50

Lấy các giá trị điển hình từ một hay nhiều cột

SELECT DISTINCT [ten_cot] FROM [ten_bang];

Loại bỏ các bản trùng hợp nhau

SELECT DISTINCT * FROM [ten_bang];

Một số hàm mang tính tổng hợp trong SQL như SUM, AVG, MAX, MIN, COUNT

Ví dụ:

SELECT SUM(ten_cot) FROM [ten_bang];

  • COUNT

      Lấy số lượng các hàng (hay số lượng các bản ghi trong một bảng)

   SELECT COUNT(*) FROM [ten_bang]

Nhập gọn gàng với truy xuất SQL

Submitted by tinhxleev2 on Wed, 05/19/2021 - 03:03

Xem thêm cách sử dụng cặp SELECT FROM trên w3schools.com

Sử dụng thêm một số điều kiện WHERE để lựa chọn bản lưu, kết thúc bằng dấu chấm phảy ;

SELECT [ten_cot]

FROM [ten_bang]

WHERE [dieu_kien];

Lọc bằng số - so sánh giá trị (cao hơn, thấp hơn) với dấu <, >, >=, <=, <>, hoặc =...

Ví dụ:

SELECT *

FROM phieu_nhap_kho

Sử dụng pandas để kết nối với db và lấy dữ liệu từ db

Submitted by tinhxleev2 on Tue, 05/18/2021 - 04:14

Thông thường quá trình kết nối với với db và lấy dữ liệu từ db (CSLD, cơ sở dữ liệu) qua các bước sau 

# Bước 1 tải pandas và sqlalchemy create_engine

import pandas as pd

from sqlalchemy import create_engine

# Bước 2 tạo db engine để quản lý kết nối

engine = create_engine("sqlite:///data.db") 

# Bước 3 tải bảng bằng tên của bảng

ten_bang = pd.read_sql('ten_bang', engine)

Sửa nhập ngày tháng pandas cho excel file

Submitted by tinhxleev2 on Mon, 05/17/2021 - 05:47

Dữ liệu ngày tháng là một kiểu dữ liệu riêng, và thể hiện nội bộ. Giá trị ngày tháng có thể chuyển đổi thành string. pandas sẽ không suy luận ra các cột có chứa dữ liệu ngày tháng, trừ khi được chỉ ra. Khi các cột ngày tháng có định dạnh tiêu chuẩn thì việc chỉ cho pandas parse khá dễ bằng parse_dates.

  • Sẽ có các bộ tiêu chuẩn cột phổ biến mô tả string ở dạng ngày tháng

Trước đây khi làm việc với csv file thì mình sử dụng parse_dates và dayfirst, parse_dates sẽ đọc dữ liệu cột ở dạng ngày tháng.

Chỉnh nhâp files dữ liệu true/false

Submitted by tinhxleev2 on Thu, 05/13/2021 - 08:52

true/false kiểu dữ liệu được thể hiện bằng khá nhiều cách, bắng số 0,1, TRUE/FALSE, YES/NO.

Khi tải excel file, bạn có thể xác định lại kiểu dữ liệu load vào cho từng cột ví dụ

df = pd.read_csv('ten_file.xlxs', dtype={'ten_cot_1':bool,

                                    'ten_cot_2:bool}

Sử dụng true_values và false_values ví dụ trong một cột bol, có giá trị Yes và No thì khi đọc thêm đối số 

true_values=['Yes']

false_values=['No']

Ngoài ra thêm một số yếu tố

Learing