دوره‌ها / آموزش پایتون (Python) / کتابخانه Pandas (Python Pandas)

کتابخانه Pandas (Python Pandas)

15 دقیقه Article

کتابخانه Pandas: تحلیل‌گر حرفه‌ای داده‌ها 📊🐼

اگر NumPy عضلات محاسباتی پایتون باشد، Pandas مغز متفکر تحلیل داده است. Pandas به شما اجازه می‌دهد داده‌های بزرگ را به راحتی از فایل‌های CSV، Excel یا دیتابیس‌ها بخوانید، آن‌ها را تمیز کنید، فیلتر کنید و تحلیل‌های آماری بگیرید.

۱. دو ساختار اصلی داده در Pandas

  • Series: یک آرایه یک‌بعدی که می‌تواند هر نوع داده‌ای را نگه دارد (شبیه به یک ستون در اکسل).
  • DataFrame: یک ساختار دو بعدی شبیه به یک جدول با سطرها و ستون‌ها. این پرکاربردترین بخش Pandas است.

۲. کار با سری‌ها (Series)

import pandas as pd
a = [1, 7, 2]
myvar = pd.Series(a)
print(myvar)

۳. کار با دیتافریم‌ها (DataFrames) 🏢

دیتافریم‌ها شبیه جداول SQL یا شیت‌های اکسل هستند:

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}
df = pd.DataFrame(data)
print(df)

۴. خواندن داده از دنیای واقعی (CSV)

معمولاً ما داده‌ها را دستی نمی‌سازیم، بلکه از فایل‌ها می‌خوانیم:

df = pd.read_csv('data.csv')
print(df.head()) # نمایش 5 سطر اول
تمیز کردن داده (Data Cleaning): یکی از بزرگترین کارهایی که با Pandas انجام می‌دهیم، حذف کردن سطرهایی است که داده‌های اشتباه یا خالی (NaN) دارند.
تحلیل سریع: با دستور df.info() می‌توانید کل اطلاعات دیتابیس خود (تعداد ستون‌ها، نوع داده‌ها و فضای اشغالی) را ببینید. همچنین df.describe() آمارهای ریاضی مثل میانگین و انحراف معیار را برای تمام ستون‌ها حساب می‌کند.
حجم حافظه: پانداز کل فایل را در حافظه RAM بارگذاری می‌کند. برای فایل‌های بسیار بزرگ (مثلاً 50 گیگابایت) باید از تکنیک‌هایی مثل تکه‌تکه خواندن (Chunking) استفاده کنید.

تمرین‌های عملی

برای تثبیت یادگیری این درس تمرین‌های زیر را حل کنید

ساخت سری در Pandas Medium
سوال تمرین

کتابخانه pandas را با نام pd وارد کنید. یک سری (Series) از لیستی شامل ['A', 'B', 'C'] بسازید.

پاسخ تمرین
PYTHON
import pandas as pd
s = pd.Series(['A', 'B', 'C'])
print(s)

آماده رفتن به درس بعدی هستید؟

این درس را به پایان رساندید و می‌توانید به درس بعدی بروید.