Introduzione alla libreria Pandas in Python

Pandas è una delle librerie più potenti e utilizzate per la manipolazione e l'analisi dei dati in Python. Se lavori con dati tabulari, simili a quelli che potresti trovare in un file Excel o in un database SQL, Pandas è un alleato indispensabile.

Pandas è una libreria open-source, costruita sulla base di NumPy, progettata per facilitare la gestione e l'analisi dei dati. La sua popolarità deriva dalla sua capacità di semplificare operazioni complesse sui dati, come la pulizia, la trasformazione e l'aggregazione.

Grazie a Pandas, puoi caricare, manipolare e analizzare dati in pochi passaggi, rendendola una libreria essenziale per data scientist, analisti e sviluppatori.

Installazione di Pandas in Python

Prima di iniziare a lavorare con Pandas, è necessario installarla. L'installazione può essere fatta facilmente utilizzando pip, il gestore di pacchetti di Python:

pip install pandas

Una volta installata, puoi importare la libreria nel tuo ambiente di lavoro Python:

import pandas as pd

L'abbreviazione pd è uno standard de facto nella comunità Python per riferirsi a Pandas, rendendo il codice più leggibile e facile da scrivere.

Le strutture dati fondamentali: Series e DataFrame

Le due strutture dati fondamentali in Pandas sono Series e DataFrame. Comprendere queste due strutture è cruciale per utilizzare efficacemente la libreria.

Series è una struttura dati unidimensionale, simile a un array o una lista in Python, ma con l'aggiunta di un indice che permette di accedere ai suoi elementi in modo più flessibile:

import pandas as pd

serie = pd.Series([10, 20, 30, 40])
print(serie)

Questo codice creerà una serie con i valori specificati, ciascuno associato a un indice intero (di default, partendo da 0).

Invece, DataFrame è una struttura bidimensionale, simile a una tabella di dati, dove le righe rappresentano i record e le colonne rappresentano le variabili o caratteristiche. Un DataFrame può essere creato a partire da vari tipi di input, come dizionari di liste:

import pandas as pd

dati = {
    "Nome": ["Anna", "Luca", "Marta"],
    "Età": [28, 34, 22],
    "Città": ["Roma", "Milano", "Firenze"]
}

df = pd.DataFrame(dati)
print(df)

In questo esempio, ogni chiave del dizionario diventa una colonna nel DataFrame, mentre i valori associati alle chiavi diventano le righe.

Caricamento dei dati in Pandas

Una delle funzionalità principali di Pandas è la capacità di caricare dati da diverse fonti, come file CSV, Excel, SQL, e JSON. Per esempio, per caricare un file CSV in un DataFrame, si può utilizzare il metodo read_csv:

import pandas as pd

df = pd.read_csv("file.csv")
print(df.head())

Il metodo head() permette di visualizzare le prime righe del DataFrame, utile per ottenere una rapida panoramica dei dati caricati.

Una volta caricati i dati, Pandas offre una vasta gamma di strumenti per manipolarli. Puoi filtrare righe e colonne, ordinare i dati, aggiungere nuove colonne, raggruppare i dati e molto altro ancora.

Pagina precedente Pagina successiva

AD placeholder

Indice pagine di python

Indice python

Pagine aggiunte di recente

Importare un file JSON in Pandas Metodo loc ed iloc di Pandas Aggiungere e rimuovere colonne e righe da dataframe Pandas Numeri amicabili in Python Verificare se dato è numerico, intero o decimale in Python