Khung sườn điện toán song song

Submitted by tinhxleev2 on Fri, 04/16/2021 - 15:23

Bài trước điện toán song song giới thiệu sơ qua về cách phân chia dữ liệu thành các phần sử dung dask, bài này giới thiệu về khung sườn điện toán song (parallel compution frameworks), chủ đề đang nóng trong giới thiết kế dữ liệu. 

Bảo đảm với bạn khi tham gia vào hệ sinh thái dữ liệu lớn, bạn sẽ biết tới hadoop

Gõ chữ HOA trong email khi nào nào cần?

Submitted by tinhxleev2 on Thu, 04/15/2021 - 04:25

Hôm này mình nhận được một email trên đó viết hầu như toàn bộ bằng chữ HOA và có một số còn bôi đỏ, mặc dù sự việc không tới mức quan trọng như vậy. 

Nếu nhận được một email như vậy hẳn bạn cũng sẽ có cảm giác tương tự như mình. 

Trích một đoạn trên WIRED thì khi bạn DÙNG TẤT CẢ TỪ VIẾT HOA TRONG EMAIL NÓ GIỐNG NHƯ BẠN ĐANG GÀO LÊN.

Sử dụng viết hoa đúng cách bạn có thể thể hiện được sự cảm thông, chỉ bằng một từ, hay nhấn mạnh một điều gì đó. 

Chẳng hạn trong email cấn nhấn mạnh một việc nào đó "mọi người cần tới trước 5 PHÚT trước giờ tổ chức sự kiện."

Cách di chuyển website từ DreamHost hoặc bất kỳ hosting nào sang Serverpilot

Submitted by tinhxleev2 on Wed, 04/14/2021 - 12:19

Mình có một website tạo từ khi bắt đầu biết tới Wordpress từ năm 2014 cho tới nay, giờ mình muốn di chuyển host từ Dreamhost sang Serverpilot. 

Trước hết mình login vào trang wordpress của mình, kiểm ra phiên bản php đang chạy thì đó là bản 7.4, ok ổn. Sau đó cập nhật tất cả các plugin, cái nào không dùng đến bạn nên deactive à xóa bỏ.

Cài đặt plugin All-in-One WP Migration, sau đó xuất toàn bộ dữ liệu ra tải về một files, vì web của mình có khá nhiều spams comment nên mình tích vào phần này để bản xuất ra không chứa các spam comments. 

Tags

Cơ sở dữ liệu (CSDL)

Submitted by tinhxleev2 on Tue, 04/13/2021 - 09:18

Cơ sở dữ liệu (viết tắt CSDL) - Tiếng Anh là Database.

Cơ sở dữ liệu là gì?  là một công cụ thiết yếu cho kỹ sư dữ liệu.

data base
Cơ sở dữ liệu - tổng hợp dữ liệu lớn được sắp xếp để tìm và truy xuất nhanh.

Cần phân biệt cơ sở dữ liệu vận hành bằng DBMS với hệ thống lưu trữ file.

Các Nhà Cung Cấp Dịch Vụ Đám Mây

Submitted by tinhxleev2 on Tue, 04/13/2021 - 08:19

Dịch vụ đám mây đem lại hiệu quả kinh tế cho công ty sử dụng so với chi phí xây dựng server, trung tâm dữ liệu riêng. Dịch vụ đám mây có một tiện ích hấp dẫn đó là chỉ cung cấp thêm tài nguyên khi bạn cần và tính giá theo thời gian sử dụng nguồn tài nguyên (ví dụ dụng lượng bạn cần sử dụng và số lượng GB mà bạn khai thác). Dịch vụ đám mây cũng tin cậy và hiệu quả hơn.

Kỹ sư dữ liệu là một người dùng "nặng" trên dịch dụ đám mây có một vài lý do sau đây:

Những Công Cụ Cho Kỹ Sư Dữ Liệu

Submitted by tinhxleev2 on Tue, 04/13/2021 - 03:45

Một kỹ sư dữ liệu sẽ di chuyển dữ liệu từ các nguồn khác nhau, xử lý, làm sạch và cuối cùng là tải lên một cơ sở dữ liệu sẵn sàn cho việc phân tích tiếp theo bởi chuyên viên khoa học dữ liệu. Sẽ có nhiều việc cho một kỹ sư dữ liệu và mỗi khâu như quản lý cơ sở dữ liệu, xử lý dữ liệu, và lên lịch dữ liệu đều có các công cụ tương ứng. Và các công cụ này khá phổ biến và nhiều lựa chọn, cuối cùng kỹ sư dữ liệu sẽ phải lựa chọn một công cụ phù hợp với hệ thống. 

Điện toán song song (Parallel computing)

Submitted by tinhxleev2 on Mon, 04/12/2021 - 08:28

Điện toán song song (Parallel computing) là công cụ cơ bản của xử lý dữ liệu hiện đại. Điện toán song song là cần thiết vì ngoài yếu tố bộ nhớ nó còn là khả năng xử lý, nhưng chủ yếu là bộ nhớ là chính.

Điện toán song song làm việc như thế nào? 

Điện toán song song chia công việc thành các tác vụ nhỏ hơn và được phân phối tới các máy tính khác. 

Ví dụ như sau

Bạn có 1000 chiếc áo giao cho một nhân viên bán được 100 cái trong vòng 15 phút, thì mất 150 phút = 2h 30 phút

Tại sao nên chọn Data Engineer thay vì Data Scientist

Submitted by tinhxleev2 on Mon, 04/12/2021 - 05:10

Bài viết hiện lên trong Google's gợi ý bài đọc, và mình dịch ra từ towardsdatascience (đăng bởi Terence Shin)

Một kỹ sư dữ liệu phát triển, xây dựng, kiểm tra và bảo trì cơ sở hạ tầng, ví dụ các cơ sở dữ liệu hay hệ thống xử lý dữ liệu quy mô lớn

Nói là "Tại sao nên chọn Data Engineer thay vì Data Scientist" nhưng sự lựa chọn hoàn toàn phù thuộc vào mối quan tâm và đam mê của bạn. Tuy nhiên nếu bạn đang còn phân vân giữa hai công việc này thì bài viết này sẽ làm sáng tỏ cho bạn một số vấn đề để hỗ trợ cho sự chọn lựa của bạn. 

Lên Lịch Dữ Liệu (scheduling data)

Submitted by tinhxleev2 on Sat, 04/10/2021 - 05:26

Giống như lên lịch bài đăng trên facebook, bạn cũng có thể làm tương tự với dữ liệu. Việc này có thể áp dụng vào bất kỳ khâu nào trong việc xử lý dữ liệu, có thể nói một cách văn vẻ thì lên lịch dữ liệu là hồ dán cho một hệ thống cơ sở dữ liệu, hình dung bạn dán các tờ giấy với nhau như thể nào thì lên lịch dữ liệu dán và sắp xếp cách mà các bộ phận trong CSDL với nhau như vậy.

Lên lịch dữ liệu chạy các việc theo thứ tự, và giải quyết tất cả các gói phụ thuộc. 

Có nhiều cách lên lịch dữ liệu dán các miếng dán với nhau: 

Learing