Skip to content

Pandas Cheat Sheet

Λεπτομερής οδηγός για τη χρήση της βιβλιοθήκης Pandas.

Εγκατάσταση Pandas

Εντολή Περιγραφή
conda install pandas Ο καλύτερος τρόπος για να αποκτήσετε το pandas είναι μέσω του conda
python3 -m pip install --upgrade pandas Μέσω PyPI
pip install pandas Τυπική εγκατάσταση pip

Βασικές συντομογραφίες και εισαγωγή πακέτων

Συντομογραφία Περιγραφή
df Οποιοδήποτε αντικείμενο DataFrame των Pandas
s Οποιοδήποτε αντικείμενο Series των Pandas

Μέθοδοι εισαγωγής

Εντολή Περιγραφή
import pandas as pd Εισαγωγή των pandas με το ψευδώνυμο pd
import numpy as np Εισαγωγή της numpy με το ψευδώνυμο np

Επιλογή δεδομένων

Εντολή Περιγραφή
df[col] Επιστρέφει μια στήλη ως Series με βάση το όνομα της στήλης
df[[col1, col2]] Επιστρέφει πολλές στήλες ως DataFrame
s.iloc[0] Επιλογή δεδομένων κατά θέση
s.loc['index_one'] Επιλογή δεδομένων κατά ευρετήριο (index)
df.iloc[0,:] Επιστρέφει την πρώτη σειρά
df.iloc[0,0] Επιστρέφει το πρώτο στοιχείο της πρώτης στήλης

Καθαρισμός δεδομένων

Εντολή Περιγραφή
df.columns = ['a','b','c'] Μετονομασία στηλών
pd.isnull() Έλεγχος για κενές τιμές (null) σε ένα DataFrame. Επιστρέφει έναν πίνακα Boolean
pd.notnull() Έλεγχος για μη κενές τιμές σε ένα DataFrame. Επιστρέφει έναν πίνακα Boolean
df.dropna() Διαγραφή όλων των σειρών που περιέχουν κενές τιμές
df.dropna(axis=1) Διαγραφή όλων των στηλών που περιέχουν κενές τιμές
df.dropna(axis=1, thresh=n) Διαγραφή όλων των σειρών με λιγότερα από n μη κενά στοιχεία
df.fillna(x) Αντικατάσταση όλων των κενών τιμών σε ένα DataFrame με το x
s.astype(float) Μετατροπή του τύπου δεδομένων της Series σε float
s.replace(1, 'one') Αντικατάσταση όλων των τιμών που είναι ίσες με 1 με την τιμή ‘one’
s.replace([1,3], ['one', 'three']) Αντικατάσταση του 1 με ‘one’ και του 3 με ’three’
df.rename(columns=lambda x: x + 1) Μαζική μετονομασία στηλών
df.rename(columns={'old_name': 'new_name'}) Επιλεκτική μετονομασία στηλών
df.set_index('column_one') Αλλαγή της στήλης ευρετηρίου (index)
df.rename(index=lambda x: x + 1) Μαζική μετονομασία ευρετηρίων

Εισαγωγή δεδομένων

Εντολή Περιγραφή
pd.read_csv(filename) Εισαγωγή δεδομένων από αρχείο CSV
pd.read_table(filename) Εισαγωγή δεδομένων από αρχείο κειμένου με οριοθέτες
pd.read_excel(filename) Εισαγωγή δεδομένων από αρχείο Excel
pd.read_sql(query, connection_object) Εισαγωγή δεδομένων από πίνακα/βάση δεδομένων SQL
pd.read_json(json_string) Εισαγωγή δεδομένων από συμβολοσειρά JSON
pd.read_html(url) Εξαγωγή πινάκων από URL, συμβολοσειρά ή αρχείο HTML
pd.read_clipboard() Λήψη περιεχομένου από το πρόχειρο και μεταβίβαση στο read_table()
pd.DataFrame(dict) Εισαγωγή δεδομένων από αντικείμενο λεξικού (τα κλειδιά είναι ονόματα στηλών, οι τιμές είναι δεδομένα)

Εξαγωγή δεδομένων

Εντολή Περιγραφή
df.to_csv(filename) Εξαγωγή δεδομένων σε αρχείο CSV
df.to_excel(filename) Εξαγωγή δεδομένων σε αρχείο Excel
df.to_sql(table_name, connection_object) Εξαγωγή δεδομένων σε πίνακα SQL
df.to_json(filename) Εξαγωγή δεδομένων σε αρχείο κειμένου σε μορφή JSON

Επεξεργασία δεδομένων: Φίλτρο, Ταξινόμηση και GroupBy

Εντολή Περιγραφή
df[df[col] > 0.5] Επιλογή σειρών όπου η τιμή στη στήλη ‘col’ είναι > 0,5
df.sort_values(col1) Ταξινόμηση δεδομένων κατά τη στήλη col1 (αύξουσα από προεπιλογή)
df.sort_values(col2, ascending=False) Ταξινόμηση δεδομένων κατά τη στήλη col2 σε φθίνουσα σειρά
df.sort_values([col1, col2], ascending=[True, False]) Ταξινόμηση κατά col1 αύξουσα, στη συνέχεια κατά col2 φθίνουσα
df.groupby(col) Επιστρέφει ένα αντικείμενο GroupBy ομαδοποιημένο κατά τη στήλη ‘col’
df.groupby([col1, col2]) Επιστρέφει ένα αντικείμενο GroupBy ομαδοποιημένο κατά περισσότερες στήλες
df.groupby(col1)[col2].mean() Επιστρέφει τον μέσο όρο της στήλης col2 για κάθε ομάδα στην col1
df.pivot_table(index=col1, values=[col2, col3], aggfunc=max) Δημιουργία συγκεντρωτικού πίνακα ομαδοποιημένου κατά col1, υπολογίζοντας το μέγιστο για col2 και col3
df.groupby(col1).agg(np.mean) Επιστρέφει τον μέσο όρο για όλες τις στήλες ομαδοποιημένες κατά col1
df.apply(np.mean) Εφαρμογή της συνάρτησης np.mean σε κάθε στήλη
df.apply(np.max, axis=1) Εφαρμογή της συνάρτησης np.max σε κάθε σειρά

Δημιουργία αντικειμένων δοκιμής

Εντολή Περιγραφή
pd.DataFrame(np.random.rand(20,5)) Δημιουργία ενός DataFrame με 20 σειρές και 5 στήλες από τυχαίους αριθμούς
pd.Series(my_list) Δημιουργία μιας Series από ένα επαναλήψιμο αντικείμενο (iterable) my_list
df.index = pd.date_range('1900/1/30', periods=df.shape[0]) Προσθήκη ευρετηρίου ημερομηνίας

Προβολή και έλεγχος δεδομένων

Εντολή Περιγραφή
df.head(n) Προβολή των πρώτων n σειρών ενός DataFrame
df.tail(n) Προβολή των τελευταίων n σειρών ενός DataFrame
df.shape Προβολή του αριθμού των σειρών και των στηλών
df.info() Προβολή ευρετηρίου, τύπων δεδομένων και πληροφοριών μνήμης
df.describe() Προβολή περιληπτικών στατιστικών για αριθμητικές στήλες
s.value_counts(dropna=False) Προβολή μοναδικών τιμών και μετρήσεων για μια Series
df.apply(pd.Series.value_counts) Προβολή μοναδικών τιμών και μετρήσεων για κάθε στήλη σε ένα DataFrame

Συγχώνευση δεδομένων

Εντολή Περιγραφή
df1.append(df2) Προσάρτηση των σειρών από το df2 στο τέλος του df1
pd.concat([df1, df2], axis=1) Προσάρτηση των στηλών από το df2 στο τέλος του df1
df1.join(df2, on=col1, how='inner') Σύνδεση (Join) τύπου SQL μεταξύ των στηλών των df1 και df2

Στατιστικά δεδομένων

Εντολή Περιγραφή
df.describe() Προβολή περιληπτικών στατιστικών για αριθμητικές στήλες
df.mean() Επιστρέφει τον μέσο όρο όλων των στηλών
df.corr() Επιστρέφει τον συντελεστή συσχέτισης μεταξύ των στηλών
df.count() Επιστρέφει τον αριθμό των μη κενών τιμών σε κάθε στήλη
df.max() Επιστρέφει τη μέγιστη τιμή κάθε στήλης
df.min() Επιστρέφει την ελάχιστη τιμή κάθε στήλης
df.median() Επιστρέφει τη διάμεσο κάθε στήλης
df.std() Επιστρέφει την τυπική απόκλιση κάθε στήλης