Dự án python 1 - TV, HALFTIME SHOWS, AND THE BIG GAME

Submitted by tinhxleev2 on Thu, 09/03/2020 - 03:46

Trong dự án này mình sẽ lấy dữ liệu lượm từ wikipedia rồi "làm bóng" lại - gameTVhalftime musician. (dự án này bạn có thể làm trực tiếp trên datacamp). 

Lấy dữ liệu từ đây bạn có thể chỉnh sửa trên exel rồi xuất ra csv hoặc sử dụng kỹ thuật của python python web scraping. Cách 1 thì hơi thủ công, cách 2 thì mang tính tự động nhiều hơn.

Dữ liệu game sau khi được xử lý sẽ có các cột tổng cộng là 18 cột, mà trong url bạn kiểm tra có 2 bảng, như vậy mình sẽ phải cào url để lấy dữ liệu từ 2 bảng này rồi kết hợp lại thành bảng hoàn chỉnh.

date, super_bowl, venue, city, state, attendance, team_winner, winning_pts, qb_winner_1, qb_winner_2, coach_winner, team_loser, losing_pts, qb_loser_1, qb_loser_2, coach_loser, combined_pts, difference_pts

Bước 1: Tải dữ liệu dùng trên môi trường window 

 

Superbowl là một sự kiện nổi tiếng hàng năm ở Mỹ

  • Đội có thành tích xuất sắc nhất qua các kỳ của sự kiện
  • How does the game affect television viewership? Ảnh hưởng của sự kiện tới lượng người xem TV
  • Lượng người xem TV, đánh giá và tiền quảng quảng theo thời gian?
  • Ban nhạc, ca sỹ có số lần biểu diễn nhiều nhất. 

super_bowls = pd.read_csv('datasets/super_bowls.csv')

tv = pd.read_csv('datasets/tv.csv')

halftime_musicians = pd.read_csv('datasets/halftime_musicians.csv')

# Có 3 dataframe super_bowls, tv halftime_musicians

# Kiểm tra 5 hàng đầu tiên của dataframes, cột nào bị thiếu toàn bộ dữ liệu sẽ xuất hiện ở đây, NaN (not available)

print(super_bowls.head())

print(tv.head())

print(halftime_musicians.head())

Bước 2: Dùng info() kiểm tra từng dataframe xem có dữ liệu thiếu 

Xem qua dữ liệu trên của từng dataframe, cột thiếu toàn bộ dự liệu (qb_winner_2 and qb_loser_2), which make sense given most starting QBs in the Super Bowl (qb_winner_1 and qb_loser_1) play the entire game.

Ở đây mình sẽ kiểm tra

tv.info()

halfttime_musicians.info()

Kết quả cho mỗi cột sẽ có bao nhiêu giá trị non-null (integer hay float)

RangeIndex: 53 entries, 0 to 52

Data columns (total 9 columns):

super_bowl 53 non-null int64

network 53 non-null object

avg_us_viewers 53 non-null int64

total_us_viewers 15 non-null float64

rating_household 53 non-null float64

share_household 53 non-null int64

rating_18_49 15 non-null float64

share_18_49 6 non-null float64

ad_cost 53 non-null int64

dtypes: float64(4), int64(4), object(1)

memory usage: 3.8+ KB

Learing