کتابخانه Pandas (Python Pandas)
کتابخانه Pandas: تحلیلگر حرفهای دادهها 📊🐼
اگر NumPy عضلات محاسباتی پایتون باشد، Pandas مغز متفکر تحلیل داده است. Pandas به شما اجازه میدهد دادههای بزرگ را به راحتی از فایلهای CSV، Excel یا دیتابیسها بخوانید، آنها را تمیز کنید، فیلتر کنید و تحلیلهای آماری بگیرید.
۱. دو ساختار اصلی داده در Pandas
- Series: یک آرایه یکبعدی که میتواند هر نوع دادهای را نگه دارد (شبیه به یک ستون در اکسل).
- DataFrame: یک ساختار دو بعدی شبیه به یک جدول با سطرها و ستونها. این پرکاربردترین بخش Pandas است.
۲. کار با سریها (Series)
import pandas as pd
a = [1, 7, 2]
myvar = pd.Series(a)
print(myvar)
۳. کار با دیتافریمها (DataFrames) 🏢
دیتافریمها شبیه جداول SQL یا شیتهای اکسل هستند:
data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}
df = pd.DataFrame(data)
print(df)
۴. خواندن داده از دنیای واقعی (CSV)
معمولاً ما دادهها را دستی نمیسازیم، بلکه از فایلها میخوانیم:
df = pd.read_csv('data.csv')
print(df.head()) # نمایش 5 سطر اول
تمیز کردن داده (Data Cleaning): یکی از بزرگترین کارهایی که با Pandas انجام میدهیم، حذف کردن سطرهایی است که دادههای اشتباه یا خالی (NaN) دارند.
تحلیل سریع: با دستور
df.info() میتوانید کل اطلاعات دیتابیس خود (تعداد ستونها، نوع دادهها و فضای اشغالی) را ببینید. همچنین df.describe() آمارهای ریاضی مثل میانگین و انحراف معیار را برای تمام ستونها حساب میکند.
حجم حافظه: پانداز کل فایل را در حافظه RAM بارگذاری میکند. برای فایلهای بسیار بزرگ (مثلاً 50 گیگابایت) باید از تکنیکهایی مثل تکهتکه خواندن (Chunking) استفاده کنید.
تمرینهای عملی
برای تثبیت یادگیری این درس تمرینهای زیر را حل کنید
ساخت سری در Pandas
Medium
سوال تمرین
کتابخانه pandas را با نام pd وارد کنید. یک سری (Series) از لیستی شامل ['A', 'B', 'C'] بسازید.
پاسخ تمرین
PYTHON
import pandas as pd
s = pd.Series(['A', 'B', 'C'])
print(s)
آماده رفتن به درس بعدی هستید؟
این درس را به پایان رساندید و میتوانید به درس بعدی بروید.