1. 索引(index)

pandas中有兩種型別的索引：行標簽和列標簽，
行標簽是用于訪問行資料的，通常用于表示時間序列資料或唯一識別符號，
列標簽是用于訪問列資料的，通常用于表示變數或特征，

1.1 默認索引

默認情況下，行標簽和列標簽都是從0開始的數字，

df = pd.DataFrame(
    [
        ["小紅", "小明", "小汪"],
        [99, 95, 86],
        [100, 88, 94],
        [95, 99, 86],
    ],
)

df

1.2 自定義索引

為了更好的識別，可以定義行列的標簽，行標簽可以用各人的學號，列標簽用各列的實際含義，

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
df

其中index用來設定行標簽，columns用來設定列標簽，

1.3 索引的應用

索引最大的作用是訪問和選擇資料，之前學習的loc函式就是通過索引來訪問和選擇行列資料的，

df = pd.DataFrame(
    [
        ["小紅", 99, 100, 95],
        ["小明", 95, 88, 94],
        ["小汪", 86, 94, 86],
    ],
)

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]

print(df.loc[["12"], :])
print(df.loc[:, ["語文"]])

1.4 多級索引

在pandas中，可以在一個DataFrame中用多級索引來表示資料的多維結構，
多級索引可以理解為將資料分組，并按照分組的方式進行索引，
也就是說，在多級索引中，每個索引值可以由兩個或更多的標簽組成，這些標簽可以對應于多個維度的資料，

多級索引的主要優點是可以更好地組織和查詢資料，
例如，可以通過多級索引輕松地對資料進行分組和聚合操作，在保留資料完整性的同時可以獲得更多的統計資訊，

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明"],
        "年級": ["初二", "初一", "初一", "初二"],
        "成績": [100, 88, 94, 99],
    },
)

df.set_index(["姓名", "年級"]).sort_index()
df.set_index(["年級", "姓名"]).sort_index()

如上所示，通過多級索引，可以將行列資料轉換為樹形結構，讓同樣的資料表達不同的含義，
左邊的資料表達的是每個同學在各個年級的成績；
右邊的資料表達的是每個年級不同同學的成績，

根據多級索引選取資料也很簡單，

df_grade = df.set_index(["年級", "姓名"]).sort_index()

# 獲取初一所有學生的成績資料
df_grade.loc["初一", :]

# 獲取初二小明的成績
df_grade.loc["初二", :].loc["小明":, :]

2. 軸(axis)

在pandas中，有兩個軸：0軸代表的是行方向（即縱向），1軸代表的是列方向（即橫向），

2.1 洗掉資料時

洗掉行列資料時，除了指定行列的標簽，還需要指定axis屬性，表明是按行還是按列洗掉，

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 按行洗掉 axis=0
df.drop("小明", axis=0)

# 按列洗掉 axis=1
df.drop("數學", axis=1)

PS. axis 默認值是0，所以，按行洗掉時不指定 axis 也是可以的，

2.2 統計資料時

統計資料時也一樣，通過axis引數指定跨行還是跨列來統計，
假如我們要統計總分：

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 跨行統計，各門學科總分
df.sum(axis=0)

# 跨列統計，各個學生總分
df.sum(axis=1)

這里關于 axis 的理解，有些朋友可能會有點疑惑，
我們看到上面的示例中 axis=0 時，統計的是各個學科的總分，感覺像是按列統計，并不是按行統計的，
其實是這樣的，axis 表示的是行列的方向，axis=0 時，表示按行的方向統計，所以是把每行的資料加起來，得到的就是各門學科的總成績，

同樣，axis=1時，按照列的方向統計，得到的就是每個學生的總成績了，

3. 總結回顧

本篇介紹了pandas中兩個重要的概念，索引和軸，

關于索引，pandas的索引有默認索引，自定義索引以及多級索引，
默認索引是pandas自動生成的整數形式的索引，它默認會被創建，
自定義索引指的是用戶自己定義的一種標簽形式的索引，可以是數字、字串或者日期等型別，
多級索引可以讓我們用不同的角度看待資料，

關于軸，因為pandas中的資料通常是二維的，所以資料可以沿著兩個軸進行操作，分別是行軸和列軸，
行軸又稱為軸0，它沿著行的方向進行操作，是資料的第一維度，
列軸又稱為軸1，它沿著列的方向進行操作，是資料的第二維度，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/554264.html

標籤：其他

上一篇：p4 FileReader 和 FileWriter

下一篇：返回列表

【pandas基礎】--索引和軸