Bash Scripting

Submitted by tinhxleev2 on Tue, 10/12/2021 - 10:48

Bash là ngôn ngữ scripting súc tích, siêu nhanh và chắc dùng cho quản lý dữ liệu và file. Bash là công cụ cần thiết để tạo pipelines phân tích trên đám mây, tiện cho người dùng Linux làm việc với dữ liệu lưu ở nhiều file.

- Từ những dòng lệnh đơn giản thành bash script

- Biến và kiểu dữ liệu ở bash scripting

- Control statements (các vòng lặp if, each or for)

- Hàm và scripting automation

bash - bourne again shell (a pun), được phát triển từ những năm 80s nhưng hiện nay rất phổ biến trên Linux và Mac.

Unix is the internet chạy ML models và Data pipelines.

AWS, Microsoft, Google đều có CLI (command line interface) cho sản phẩm của họ. 

bash được sử dụng bởi thay vì gõ từng dòng lệnh, bạn chỉ cần chạy bash script tập hợp tất cả các lệnh cần chạy cho chương trình. 

Một số lênh cơ bản (grep, cat, tail/head, wc - đếm từ hay đếm dòng)

REGEX - là regular expression - một kỹ năng quan trọng ở bash scripting. Để học thêm kỹ năng này b vào regex101.com để xem thêm. 

Ví dụ, sử dụng grep để lọc các từ có trong file.txt (có chưa tên các loại hoa quả)

grep 'a' file.txt

sẽ trả lại các từ có chưa chữ cái a như apple, banana....

Trường hợp match nhiều chữ cái 

grep '[ab]' file.txt

Sử dụng sort | uniq -c

Để plân loại sau đó đếm các giá trị riêng ví dụ có 2 apple xuất hiện thì uniq -c sẽ đếm là 2.

cat file.text | sort | uniq -c | head -n 3 

Thêm một ví dụ 

cat file.txt | egrep 'ten 1|ten 2' | wc -l

Learing