學習目標：

一，掌握資料結構分析，索引操作及高級索引

二，掌握算術運算與資料對齊，資料排序

三，掌握統計計算與描述，層次化索引

四，掌握讀寫資料操作

學習內容：

1.Pandas的資料結構分析

Series:類似一維陣列的物件，它能夠保存任何型別的資料，主要由一組資料和與之相關的索引兩部分構成，

構造方法創建：

class pandas.Series（data = None，index = None，dtype = None， name = None，copy = False，fastpath = False）

# 創建Series類物件
ser_obj = pd.Series([1, 2, 3, 4, 5])

# 創建Series類物件，并指定索引
ser_obj = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

#使用dict進行構建
year_data = {2001: 17.8, 2002: 20.1, 2003: 16.5} ser_obj2 = pd.Series(year_data)

# 獲取ser_obj的索引
ser_obj.index

# 獲取ser_obj的資料
ser_obj.values

# 獲取位置索引3對應的資料
ser_obj[3]

DataFrame:是一個類似于二維陣列或表格（如excel）的物件，它每列的資料可以是不同的資料型別，

注： DataFrame的索引不僅有行索引，還有列索引，資料可以有多列，

構造方法創建：

pandas.DataFrame（data = None，index = None，columns = None， dtype = None，copy = False ）

# 創建陣列
demo_arr = np.array([['a', 'b', 'c'],

                               ['d', 'e', 'f']])

# 基于陣列創建DataFrame物件
df_obj = pd.DataFrame(demo_arr)

#按照指定索引的順序進行排列
df_obj = pd.DataFrame(demo_arr, columns=['No1', 'No2', 'No3'])

# 通過列索引的方式獲取一列資料
element = df_obj['No2']

# 查看回傳結果的型別
type(element)

# 通過屬性獲取列資料
element = df_obj.No2

# 查看回傳結果的型別
type(element)

# 增加No4一列資料
df_obj['No4'] = ['g', 'h']

# 洗掉No3一列資料
del df_obj['No3']

2.Pandas索引操作及高級索引

Pandas中的索引都是Index類物件，又稱為索引物件，該物件是不可以進行修改的，以保障資料的安全，

Pandas還提供了很多Index的子類，常見的有如下幾種:

（1）Int64Index：針對整數的特殊Index物件，

（2）MultiIndex：層次化索引，表示單個軸上的多層索引，

（3）DatetimeIndex：存盤納秒寄時間戳，

reindex()作用是對原索引和新索引進行匹配，也就是說，新索引含有原索引的資料，而原索引資料按照新索引排序，

注：如果新索引中沒有原索引資料，那么程式不僅不會報錯，而且會添加新的索引，并將值填充為NaN或者使用fill_vlues()填充其他值，

reindex()方法的語法格式如下：

#index：用作索引的新序列，
#method：插值填充方式，
#fill_value：引入缺失值時使用的替代值，
#limit：前向或者后向填充時的最大填充量，

DataFrame.reindex（labels = None，index = None，
columns = None，axis = None，method = None，
copy = True，level = None，fill_value = nan，limit = None，tolerance = None ）

#使用fill_value引數來指定缺失值
ser_obj.reindex(['a', 'b', 'c', 'd', 'e', 'f'],
                                  fill_value = 6)

如果期望使用相鄰的元素值進行填充，則可以使用method引數，該引數對應的值有多個，

Series有關索引的用法類似于NumPy陣列的索引，只不過Series的索引值不只是整數，如果我們希望獲取某個資料，既可以通過索引的位置來獲取，也可以使用索引名稱來獲取，

ser_obj = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser_obj[2]    # 使用索引位置獲取資料
ser_obj['c']   # 使用索引名稱獲取資料

ser_obj[2: 4]           # 使用位置索引進行切片
ser_obj['c': 'e']        # 使用索引名稱進行切片

# 通過不連續位置索引獲取資料集
ser_obj[[0, 2, 4]]
# 通過不連續索引名稱獲取資料集
ser_obj[['a', 'c', 'd']]

# 創建布爾型Series物件
ser_bool = ser_obj > 2
# 獲取結果為True的資料
ser_obj[ser_bool]

雖然DataFrame操作索引能夠滿足基本資料查看請求，但是仍然不夠靈活，為此，Pandas庫中提供了操作索引的方法來訪問資料，具體包括：

loc：基于標簽索引（索引名稱），用于按標簽選取資料，當執行切片操作時，既包含起始索引，也包含結束索引，

iloc：基于位置索引（整數索引），用于按位置選取資料，當執行切片操作時，只包含起始索引，不包含結束索引，

3.算術運算與資料對齊

Pandas執行算術運算時，會先按照索引進行對齊，對齊以后再進行相應的運算，沒有對齊的位置會用NaN進行補齊，

如果希望不使用NAN填充缺失資料，則可以在呼叫add方法時提供fill_value引數的值，fill_value將會使用物件中存在的資料進行補充，

# 執行加法運算，補充缺失值
obj_one.add(obj_two, fill_value = 0)

4.資料排序

Pandas中按索引排序使用的是sort_index()方法，該方法可以用行索引或者列索引進行排序，

#axis：軸索引，0表示index（按行），1表示columns（按列），
#level：若不為None，則對指定索引級別的值進行排序，
#ascending：是否升序排列，默認為True表示升序，

sort_index（axis = 0，level = None，ascending = True，inplace = False，kind =' quicksort '，na_position ='last'，sort_remaining = True ）

#按索引對Series進行分別排序
ser_obj = pd.Series(range(10, 15), index=[5, 3, 1, 3, 2])
# 按索引進行升序排列
ser_obj.sort_index()
# 按索引進行降序排列
ser_obj.sort_index(ascending = False)

#按索引對DataFrame進行分別排序
df_obj = pd.DataFrame(np.arange(9).reshape(3, 3), 
               index=[4, 3, 5]) 
# 按行索引升序排列
df_obj.sort_index()
# 按行索引降序排列
df_obj.sort_index(ascending=False)

Pandas中用來按值排序的方法為sort_values()，該方法的語法格式如下，

sort_values(by,axis=0, ascending=True, inplace=False, kind='quicksort',na_position='last')
#by引數表示排序的列，na_position引數只有兩個值：first和last，若設為first，則會將NaN值放在開頭；若設為False，則會將NaN值放在最后，

#按值的大小對Series進行排序
ser_obj = pd.Series([4, np.nan, 6, np.nan, -3, 2])
# 按值升序排列
ser_obj.sort_values()

#sort_values()方法可以根據一個或多個列中的值進行排序
df_obj = pd.DataFrame([[0.4, -0.1, -0.3, 0.0], 
                                      [0.2, 0.6, -0.1, -0.7],
                                      [0.8, 0.6, -0.5, 0.1]])
# 對列索引值為2的資料進行排序
df_obj.sort_values(by=2)

5.統計計算與描述

Pandas為我們提供了非常多的描述性統計分析的指標方法，比如總和、均值、最小值、最大值等，

如果希望一次性輸出多個統計指標，則我們可以呼叫describe()方法實作，語法格式如下，

describe(percentiles=None, include=None, exclude=None)
#percentiles：輸出中包含的百分數，位于[0,1]之間，如果不設定該引數，則默認為[0.25,0.5,0.75]，回傳25%，50%，75%分位數

6. 層次化索引

定義：層次化索引可以理解為單層索引的延伸，即在一個軸方向上具有多層索引，

對于兩層索引結構來說，它可以分為內層索引和外層索引，

Series和DataFrame均可以實作層次化索引，最常見的方式是在構造方法的index引數中傳入一個嵌套串列，

 mulitindex_series = pd.Series([15848,13472,12073.8,7813,
                                                   7446,6444,15230,8269],
   	                      index=[['河北省','河北省','河北省','河北省',
   	                                    '河南省','河南省','河南省','河南省'],
   	                                   ['石家莊市','唐山市','邯鄲市','秦皇島市',
   	                                    '鄭州市','開封市','洛陽市','新鄉市']])

注：在創建層次化索引物件時，嵌套函式中兩個串列的長度必須是保持一致的，否則將會出現ValueError錯誤，

還可以通過MultiIndex類的方法構建一個層次化索引，該類提供了3種創建層次化索引的方法：

MultiIndex.from_tuples()：將元組串列轉換為MultiIndex，

MultiIndex.from_arrays()：將陣列串列轉換為MultiIndex，

MultiIndex.from_product()：從多個集合的笛卡爾乘積中創建一個MultiIndex，

from_tuples()方法可以將包含若干個元組的串列轉換為MultiIndex物件，其中元組的第一個元素作為外層索引，元組的第二個元素作為內層索引

list_tuples = [('A','A1'), ('A','A2'), ('B','B1'),('B','B2'), ('B','B3')]
# 根據元組串列創建一個MultiIndex物件
multi_index = MultiIndex.from_tuples(tuples=list_tuples, 
                        names=[ '外層索引', '內層索引'])

from_arrays()方法是將陣列串列轉換為MultiIndex物件，其中嵌套的第一個串列將作為外層索引，嵌套的第二個串列將作為內層索引，

multi_array = MultiIndex.from_arrays(arrays =[['A', 'B', 'A', 'B', 'B'], 
                                                                              ['A1', 'A2', 'B1', 'B2', 'B3']],
                                                                names=['外層索引','內層索引'])

from_product()方法表示從多個集合的笛卡爾乘積中創建一個MultiIndex物件

numbers = [0, 1, 2]
colors = ['green', 'purple']
multi_product = pd.MultiIndex.from_product(iterables=[numbers, colors], 
						   names=['number', 'color'])

在Pandas中，交換分層順序的操作可以使用swaplevel()方法來完成，

# 交換外層索引與內層索引位置
ser_obj.swaplevel()

要想按照分層索引對資料排序，則可以通過sort_index()方法實作，

sort_index（axis = 0，level = None，ascending = True，inplace = False，kind =' quicksort '，na_position ='last'，
sort_remaining = True，by = None ）

7. 讀寫資料操作

to_csv()方法的功能是將資料寫入到CSV檔案中

to_csv(path_or_buf=None,sep=',',na_rep='',float_format=None,columns=None,header=True, index=True, index_label=None, mode='w‘, ...)

read_csv()函式的作用是將CSV檔案的資料讀取出來，轉換成DataFrame物件展示，

read_csv(filepath_or_buffer,sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, prefix=None, ...)

注：read_csv()與read_table()函式的區別在于使用的分隔符不同，前者使用“，”作為分隔符，而后者使用“\t”作為分隔符，

to_excel()方法的功能是將DataFrame物件寫入到Excel作業表中，

to_excel(excel_writer,sheet_name='Sheet1',na_rep='',
float_format=None, columns=None, header=True, index=True, ...)

read_excel()函式的作用是將Excel中的資料讀取出來，轉換成DataFrame展示，

pandas.read_excel(io,sheet_name=0,header=0,names=None,index_col=None, **kwds)

對于網頁中的表格，可以使用read_html()函式進行讀取，并回傳一個包含多個DataFrame物件的串列，

pandas.read_html(io, match='.+', flavor=None,header=None, index_col=None,skiprows=None, attrs=None)

Pandas的io.sql模塊中提供了常用的讀寫資料庫函式，

注：在連接mysql資料庫時，這里使用的是mysqlconnector驅動，如果當前的Python環境中沒有改模塊，則需要使用pip install mysqlconnector命令安裝該模塊，

read_sql()函式既可以讀取整張資料表，又可以執行SQL陳述句，

pandas.read_sql(sql,con,index_col=None,coerce_float=True,params=None,parse_dates=None, columns=None, chunksize=None)

注：通過create_engine()函式創建連接時，需要指定格式如下：'資料庫型別+資料庫驅動名稱://用戶名:密碼@機器地址:埠號/資料庫名'，

to_sql()方法的功能是將Series或DataFrame物件以資料表的形式寫入到資料庫中，

to_sql（name，con，schema = None，if_exists ='fail'，index = True，index_label = None，chunksize = None，dtype = None ）

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/438652.html

標籤：AI

上一篇：【Pytorch深度學習50篇】·······第七篇：【1】GAN生成對抗網路---GAN

下一篇：人工智能實踐Tensorflow2.0 第五章--1.卷積神經網路基礎--八股法搭建卷積神經網路--北京大學慕課

資料分析工具Pandas