Pandas est une librarie de Python utilisée pour travailler avec des ensembles de données.
Il a pour but d'analyser, de nettoyager, d'explorer et de manipuler les données.
Pandas nous permet d'analyser les bigdata et de tirer des conclusions basées sur des théories statistiques.
Pandas permet de nettoyer les ensembles de données désordonnés et les rendre lisibles et pertinents.
Les données sont très importantes en data science .
Installation de Pandas
Si Python et PIP sont déjà installés sur votre système, l'installation de Pandas est très simple.
Installez-le à l'aide de cette commande :
pip install pandas
Ou bien comme dans notre cas on utilisera la plateform de google, "Google Colaboratory",
Une fois Pandas installé, importez-le dans vos applications en ajoutant le mot clé import :
import pandas
Une série en Pandas est comme une colonne dans un tableau.
C'est un tableau unidimensionnel contenant des données de tout type.
import pandas as pd
ages = pd.Series([22, 35, 58])
print(ages)
output
0 22
1 35
2 58
dtype: int64
Index
import pandas as pd
malist= [21, 17, 23]
ages = pd.Series(malist, index = ["a", "b", "c"])
print(ages )
Output
a 21
b 17
c 23
dtype: int64
Key/value en série
import pandas as pd
mydict = {"day1": 420, "day2": 380, "day3": 390}
myserie = pd.Series(mydict)
print(myserie)
Output
day1 420
day2 380
day3 390
dtype: int64
DataFrame est une structure de données à 2 dimensions, comme un tableau à 2 dimensions ou un tableau avec des lignes et des colonnes.
import pandas as pd
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
print(df)
Output
Name Age Sex
0 Braund, Mr. Owen Harris 22 male
1 Allen, Mr. William Henry 35 male
2 Bonnell, Miss. Elizabeth 58 female