Introduzione alla libreria Pandas in Python
Pandas è una delle librerie più potenti e utilizzate per la manipolazione e l'analisi dei dati in Python. Se lavori con dati tabulari, simili a quelli che potresti trovare in un file Excel o in un database SQL, Pandas è un alleato indispensabile.
Pandas è una libreria open-source, costruita sulla base di NumPy, progettata per facilitare la gestione e l'analisi dei dati. La sua popolarità deriva dalla sua capacità di semplificare operazioni complesse sui dati, come la pulizia, la trasformazione e l'aggregazione.
Grazie a Pandas, puoi caricare, manipolare e analizzare dati in pochi passaggi, rendendola una libreria essenziale per data scientist, analisti e sviluppatori.
Installazione di Pandas in Python
Prima di iniziare a lavorare con Pandas, è necessario installarla. L'installazione può essere fatta facilmente utilizzando pip, il gestore di pacchetti di Python:
pip install pandas
Una volta installata, puoi importare la libreria nel tuo ambiente di lavoro Python:
import pandas as pd
L'abbreviazione pd è uno standard de facto nella comunità Python per riferirsi a Pandas, rendendo il codice più leggibile e facile da scrivere.
Le strutture dati fondamentali: Series e DataFrame
Le due strutture dati fondamentali in Pandas sono Series e DataFrame. Comprendere queste due strutture è cruciale per utilizzare efficacemente la libreria.
Series è una struttura dati unidimensionale, simile a un array o una lista in Python, ma con l'aggiunta di un indice che permette di accedere ai suoi elementi in modo più flessibile:
import pandas as pd
serie = pd.Series([10, 20, 30, 40])
print(serie)
Questo codice creerà una serie con i valori specificati, ciascuno associato a un indice intero (di default, partendo da 0).
Invece, DataFrame è una struttura bidimensionale, simile a una tabella di dati, dove le righe rappresentano i record e le colonne rappresentano le variabili o caratteristiche. Un DataFrame può essere creato a partire da vari tipi di input, come dizionari di liste:
import pandas as pd
dati = {
"Nome": ["Anna", "Luca", "Marta"],
"Età": [28, 34, 22],
"Città": ["Roma", "Milano", "Firenze"]
}
df = pd.DataFrame(dati)
print(df)
In questo esempio, ogni chiave del dizionario diventa una colonna nel DataFrame, mentre i valori associati alle chiavi diventano le righe.
Caricamento dei dati in Pandas
Una delle funzionalità principali di Pandas è la capacità di caricare dati da diverse fonti, come file CSV, Excel, SQL, e JSON. Per esempio, per caricare un file CSV in un DataFrame, si può utilizzare il metodo read_csv:
import pandas as pd
df = pd.read_csv("file.csv")
print(df.head())
Il metodo head() permette di visualizzare le prime righe del DataFrame, utile per ottenere una rapida panoramica dei dati caricati.
Una volta caricati i dati, Pandas offre una vasta gamma di strumenti per manipolarli. Puoi filtrare righe e colonne, ordinare i dati, aggiungere nuove colonne, raggruppare i dati e molto altro ancora.