Khám phá Thư viện Pandas của Python để Phân tích Dữ liệu
Pandas là một thư viện Python mạnh mẽ được sử dụng để xử lý và phân tích dữ liệu. Nó cung cấp các cấu trúc dữ liệu và hàm cần thiết để làm việc với dữ liệu có cấu trúc một cách liền mạch. Với các cấu trúc dữ liệu dễ sử dụng, Pandas đặc biệt hữu ích cho việc dọn dẹp, chuyển đổi và phân tích dữ liệu. Bài viết này khám phá các tính năng cốt lõi của Pandas và cách bạn có thể sử dụng nó để xử lý dữ liệu hiệu quả.
Bắt đầu với Pandas
Để bắt đầu sử dụng Pandas, bạn cần cài đặt nó bằng pip. Bạn có thể thực hiện việc này bằng cách chạy lệnh sau:
pip install pandas
Cấu trúc dữ liệu cốt lõi
Pandas cung cấp hai cấu trúc dữ liệu chính: Series và DataFrame.
Loạt
Series là một đối tượng giống mảng một chiều có thể chứa nhiều kiểu dữ liệu khác nhau, bao gồm số nguyên, chuỗi và số dấu phẩy động. Mỗi phần tử trong Series có một chỉ mục liên quan.
import pandas as pd
# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)
Khung dữ liệu
DataFrame là một cấu trúc dữ liệu dạng bảng hai chiều, có thể thay đổi kích thước và không đồng nhất với các trục có nhãn (hàng và cột). Về cơ bản, đây là một tập hợp các Chuỗi.
# Creating a DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
Xử lý dữ liệu
Pandas cung cấp nhiều chức năng để xử lý dữ liệu, bao gồm lập chỉ mục, cắt lát và lọc.
Lập chỉ mục và cắt lát
# Selecting a single column
print(df['Name'])
# Selecting multiple columns
print(df[['Name', 'City']])
# Selecting rows by index
print(df.loc[0]) # First row
print(df.iloc[1]) # Second row
Lọc dữ liệu
# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)
Làm sạch dữ liệu
Dọn dẹp dữ liệu là bước quan trọng trong phân tích dữ liệu. Pandas cung cấp một số phương pháp để xử lý dữ liệu bị thiếu, bản ghi trùng lặp và chuyển đổi dữ liệu.
Xử lý dữ liệu bị thiếu
# Creating a DataFrame with missing values
data = {
'Name': ['Alice', 'Bob', None],
'Age': [25, None, 35]
}
df = pd.DataFrame(data)
# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)
Xóa bỏ trùng lặp
# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)
Phần kết luận
Pandas là một công cụ thiết yếu để phân tích dữ liệu trong Python. Các cấu trúc dữ liệu và hàm mạnh mẽ của nó giúp dễ dàng xử lý, thao tác và phân tích dữ liệu. Bằng cách thành thạo Pandas, bạn có thể cải thiện đáng kể khả năng phân tích dữ liệu và hợp lý hóa quy trình làm việc của mình.