在pandas
中,索引(index
)是用于訪問資料的關鍵,
它為資料提供了基于標簽的訪問能力,類似于字典,可以根據標簽查找和訪問資料,
而pandas
的軸(axis
)是指資料表中的一個維度,可以理解為表格中的行和列,
通過指定軸,我們可以對資料進行切片、篩選、聚合等操作,
下面簡要介紹pandas
的索引和軸的相關應用場景,
1. 索引(index)
pandas
中有兩種型別的索引:行標簽和列標簽,
行標簽是用于訪問行資料的,通常用于表示時間序列資料或唯一識別符號,
列標簽是用于訪問列資料的,通常用于表示變數或特征,
1.1 默認索引
默認情況下,行標簽和列標簽都是從0開始的數字,
df = pd.DataFrame(
[
["小紅", "小明", "小汪"],
[99, 95, 86],
[100, 88, 94],
[95, 99, 86],
],
)
df
1.2 自定義索引
為了更好的識別,可以定義行列的標簽,行標簽可以用各人的學號,列標簽用各列的實際含義,
df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
df
其中index
用來設定行標簽,columns
用來設定列標簽,
1.3 索引的應用
索引最大的作用是訪問和選擇資料,之前學習的loc
函式就是通過索引來訪問和選擇行列資料的,
df = pd.DataFrame(
[
["小紅", 99, 100, 95],
["小明", 95, 88, 94],
["小汪", 86, 94, 86],
],
)
df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
print(df.loc[["12"], :])
print(df.loc[:, ["語文"]])
1.4 多級索引
在pandas
中,可以在一個DataFrame中用多級索引來表示資料的多維結構,
多級索引可以理解為將資料分組,并按照分組的方式進行索引,
也就是說,在多級索引中,每個索引值可以由兩個或更多的標簽組成,這些標簽可以對應于多個維度的資料,
多級索引的主要優點是可以更好地組織和查詢資料,
例如,可以通過多級索引輕松地對資料進行分組和聚合操作,在保留資料完整性的同時可以獲得更多的統計資訊,
df = pd.DataFrame(
{
"姓名": ["小紅", "小明", "小紅", "小明"],
"年級": ["初二", "初一", "初一", "初二"],
"成績": [100, 88, 94, 99],
},
)
df.set_index(["姓名", "年級"]).sort_index()
df.set_index(["年級", "姓名"]).sort_index()
如上所示,通過多級索引,可以將行列資料轉換為樹形結構,讓同樣的資料表達不同的含義,
左邊的資料表達的是每個同學在各個年級的成績;
右邊的資料表達的是每個年級不同同學的成績,
根據多級索引選取資料也很簡單,
df_grade = df.set_index(["年級", "姓名"]).sort_index()
# 獲取初一所有學生的成績資料
df_grade.loc["初一", :]
# 獲取初二小明的成績
df_grade.loc["初二", :].loc["小明":, :]
2. 軸(axis)
在pandas
中,有兩個軸:0軸代表的是行方向(即縱向),1軸代表的是列方向(即橫向),
2.1 洗掉資料時
洗掉行列資料時,除了指定行列的標簽,還需要指定axis
屬性,表明是按行還是按列洗掉,
df = pd.DataFrame(
{
"數學": [100, 88, 94],
"語文": [98, 80, 86],
"英語": [95, 91, 86],
},
index=["小紅", "小明", "小汪"],
)
# 按行洗掉 axis=0
df.drop("小明", axis=0)
# 按列洗掉 axis=1
df.drop("數學", axis=1)
PS. axis
默認值是0
,所以,按行洗掉時不指定 axis
也是可以的,
2.2 統計資料時
統計資料時也一樣,通過axis
引數指定跨行還是跨列來統計,
假如我們要統計總分:
df = pd.DataFrame(
{
"數學": [100, 88, 94],
"語文": [98, 80, 86],
"英語": [95, 91, 86],
},
index=["小紅", "小明", "小汪"],
)
# 跨行統計,各門學科總分
df.sum(axis=0)
# 跨列統計,各個學生總分
df.sum(axis=1)
這里關于 axis
的理解,有些朋友可能會有點疑惑,
我們看到上面的示例中 axis=0
時,統計的是各個學科的總分,感覺像是按列統計,并不是按行統計的,
其實是這樣的,axis
表示的是行列的方向,axis=0
時,表示按行的方向統計,所以是把每行的資料加起來,得到的就是各門學科的總成績,
同樣,axis=1
時,按照列的方向統計,得到的就是每個學生的總成績了,
3. 總結回顧
本篇介紹了pandas
中兩個重要的概念,索引和軸,
關于索引,pandas
的索引有默認索引,自定義索引以及多級索引,
默認索引是pandas
自動生成的整數形式的索引,它默認會被創建,
自定義索引指的是用戶自己定義的一種標簽形式的索引,可以是數字、字串或者日期等型別,
多級索引可以讓我們用不同的角度看待資料,
關于軸,因為pandas
中的資料通常是二維的,所以資料可以沿著兩個軸進行操作,分別是行軸和列軸,
行軸又稱為軸0,它沿著行的方向進行操作,是資料的第一維度,
列軸又稱為軸1,它沿著列的方向進行操作,是資料的第二維度,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/554264.html
標籤:其他
上一篇:p4 FileReader 和 FileWriter
下一篇:返回列表