Introduzione alla libreria Pandas in Python

Pandas è una delle librerie più potenti e utilizzate per la manipolazione e l'analisi dei dati in Python. Se lavori con dati tabulari, simili a quelli che potresti trovare in un file Excel o in un database SQL, Pandas è un alleato indispensabile.

Pandas è una libreria open-source, costruita sulla base di NumPy, progettata per facilitare la gestione e l'analisi dei dati. La sua popolarità deriva dalla sua capacità di semplificare operazioni complesse sui dati, come la pulizia, la trasformazione e l'aggregazione.

Grazie a Pandas, puoi caricare, manipolare e analizzare dati in pochi passaggi, rendendola una libreria essenziale per data scientist, analisti e sviluppatori.

Installazione di Pandas in Python

Prima di iniziare a lavorare con Pandas, è necessario installarla. L'installazione può essere fatta facilmente utilizzando pip, il gestore di pacchetti di Python:

pip install pandas

Una volta installata, puoi importare la libreria nel tuo ambiente di lavoro Python:

import pandas as pd

L'abbreviazione pd è uno standard de facto nella comunità Python per riferirsi a Pandas, rendendo il codice più leggibile e facile da scrivere.

Le strutture dati fondamentali: Series e DataFrame

Le due strutture dati fondamentali in Pandas sono Series e DataFrame. Comprendere queste due strutture è cruciale per utilizzare efficacemente la libreria.

Series è una struttura dati unidimensionale, simile a un array o una lista in Python, ma con l'aggiunta di un indice che permette di accedere ai suoi elementi in modo più flessibile:

import pandas as pd serie = pd.Series([10, 20, 30, 40]) print(serie)

Questo codice creerà una serie con i valori specificati, ciascuno associato a un indice intero (di default, partendo da 0).

Invece, DataFrame è una struttura bidimensionale, simile a una tabella di dati, dove le righe rappresentano i record e le colonne rappresentano le variabili o caratteristiche. Un DataFrame può essere creato a partire da vari tipi di input, come dizionari di liste:

import pandas as pd dati = {     "Nome": ["Anna", "Luca", "Marta"],     "Età": [28, 34, 22],     "Città": ["Roma", "Milano", "Firenze"] } df = pd.DataFrame(dati) print(df)

In questo esempio, ogni chiave del dizionario diventa una colonna nel DataFrame, mentre i valori associati alle chiavi diventano le righe.

Caricamento dei dati in Pandas

Una delle funzionalità principali di Pandas è la capacità di caricare dati da diverse fonti, come file CSV, Excel, SQL, e JSON. Per esempio, per caricare un file CSV in un DataFrame, si può utilizzare il metodo read_csv:

import pandas as pd df = pd.read_csv("file.csv") print(df.head())

Il metodo head() permette di visualizzare le prime righe del DataFrame, utile per ottenere una rapida panoramica dei dati caricati.

Una volta caricati i dati, Pandas offre una vasta gamma di strumenti per manipolarli. Puoi filtrare righe e colonne, ordinare i dati, aggiungere nuove colonne, raggruppare i dati e molto altro ancora.