事故時間特征序列分析匯總

引言
1 資料讀取和時間特征轉化
- 1.1 先將時間的欄位組合成為統一的形式
- 1.2 再將標準形式的日期欄位轉化為datetime
- 1.3 提取年、月、日欄位資訊
- 1.4 查看日期是在第幾周
- 1.5 查看日期是在周幾
2 特定欄位的資料提取
- 2.1 字串extract方法使用
- 2.2 apply/map結合正則表達使用
3 單欄位多特征進行計數統計
- 3.1 將所有的特征都添加到串列中，轉化為Series資料進行計數
- 3.2 使用字典計數的方式進行統計
- 3.3 使用pd.explode()方法提取多特征轉化為Series進行計數
4 繪制時間序列事故圖
- 4.1 按照年份進行繪制
- 4.2 按照季度進行繪制
- 4.3 按照月份進行繪制
- 4.4 按照小時進行繪制

手動反爬蟲：原博地址

 知識梳理不易，請尊重勞動成果，文章僅發布在CSDN網站上，在其他網站看到該博文均屬于未經作者授權的惡意爬取資訊

如若轉載，請標明出處，謝謝

引言

在進行實際的的業務處理程序中，常常會和時間特征打交道，這里就進行真實資料的的時間序列處理，并將整個業務的基本流程梳理一下，資料為2012-2019 年的槽罐車事故的統計資料，已上傳至資源（包含全部運行之后的ipynb檔案），內容樣式如下：
在這里插入圖片描述

1 資料讀取和時間特征轉化

在進行資料匯入之前先加載常用的模塊，和設定繪制圖形的字體，然后再匯入要操作的資料，代碼如下

import warnings
warnings.filterwarnings('ignore')
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']

data_load = pd.read_excel('2012-2019tank_data.xlsx')
data_load.head()

輸出結果為：
在這里插入圖片描述
觀察前三列可以發現關于時間特征有年份、日期和時間，那么習慣的操作就是將默認讀取的“時間”資料轉化為datetime資料型別，方便提取具體的年、月、榷訓者進一步的提取事故時間所在一周第幾天，方便統計周末的事故情況

★★★ 處理方式：
統一的將時間的欄位轉化為‘xx-xx-xx’形式（‘年-月-日’），然后使用pd.to_datetime()方法轉化為datetime資料型別，比如這里的年份和日期進行組合（發生時間已經是具體的時間型別了，不需要轉化了）

1.1 先將時間的欄位組合成為統一的形式

data_load['date'] = data_load['年份'].map(str) + '-' + data_load['日期'].map(lambda x: str(x).replace('.','-'))
data_load['date']

輸出結果為：（這里轉化為統一格式后，資料的型別是object）
在這里插入圖片描述

1.2 再將標準形式的日期欄位轉化為datetime

data_load['date'] = pd.to_datetime(data_load['date'])
data_load['date']

輸出結果為：（這里轉化為統一格式后，資料的型別就是目標型別datetime64）
在這里插入圖片描述

1.3 提取年、月、日欄位資訊

由于經常和時間特征打交道，這里直接就封裝一個函式，只要把剛剛處理完畢的日期欄位傳遞到函式中，就可以獲得對應的年、月、日欄位資訊了，代碼如下

def get_year_month_day(df,time_col):
    
    '''Extract the year, month, and day of the time field data'''
    
    df[time_col]  = pd.to_datetime(df[time_col])
    df['year'] = df[time_col].dt.year
    df['month'] = df[time_col].dt.month
    df['day'] = df[time_col].dt.day
    return df

其中第一個引數匯入的資料對應的DataFrame資料，第二個引數就是DataFrame資料里面的時間欄位，使用方式如下

df = get_year_month_day(data_load,'date')
df.head()

輸出結果為：（至此就完成了時間特征的提取）
在這里插入圖片描述
提取時間資訊的函式還可以自己根據需求進行添加，比如你要獲取所在日期所在的第幾周，或者是一周的第幾天等，如下

1.4 查看日期是在第幾周

在這里插入圖片描述

1.5 查看日期是在周幾

這里需要注意一下，回傳的結果是0-6之間的數字，為了和大家普遍的理解認知相符，建議對結果+1，這樣1就代表周一，7就代表周日了，方便理解，
在這里插入圖片描述

2 特定欄位的資料提取

提取需要的目標欄位進行分析，其余的資料就暫時不進行處理，習慣上會將所有的欄位重新使用英文來命令，方便之后的操作（不用再切換輸入法了）

df['time'] = df['發生時間']
df['type'] = df['事故型別']
df['result'] = df['事故影響（人員）']
data = df[['date','year','month','day','time','type','result']]
data.head()

輸出結果為：
在這里插入圖片描述

2.1 字串extract方法使用

比如對于事故造成的影響，需要提取里面的死亡人數，重傷人數和輕傷人數，如果單純的使用excel表格處理，也是可以做的，但是作業量還是有點大，采用python操作就很簡單三行代碼搞定了，這一部分使用了正則運算式提取資料的方式，可以參考一下：正則運算式的分組及在pandas中的實用操作

data['death_num'] = data['result'].str.extract('(?P<death_num>\d+)人死亡')
data['injury_num'] =  data['result'].str.extract('(?P<injury_num>\d+)人重傷')
data['wound_num'] =  data['result'].str.extract('(?P<wound_num>\d+)人輕傷')
data

輸出結果為：（當然也可以自定一個函式，然后使用apply的方式進行資料提取）
在這里插入圖片描述

2.2 apply/map結合正則表達使用

如果使用apply或者map的方式，代碼如下

data['death'] = data['result'].apply(lambda x: re.search(r'(\d+)人死亡',x).group(1) if re.search(r'(\d+)人死亡',x) else 0)
data['injury'] = data['result'].apply(lambda x: re.search(r'(\d+)人重傷',x).group(1) if re.search(r'(\d+)人重傷',x) else 0)
data['wound'] = data['result'].apply(lambda x: re.search(r'(\d+)人輕傷',x).group(1) if re.search(r'(\d+)人輕傷',x) else 0)

data

輸出結果如下：（使用apply）
在這里插入圖片描述
輸出結果如下：（使用map方法，個人感覺這兩種方法對我來說使用上沒有差別，選擇一種就可以了）

3 單欄位多特征進行計數統計

比如這里的type事故型別欄位，pandas里面有個value_counts方法計數，這個功能是很好用的，但是當單欄位中出現了多個特征的時候，這個方法不會默認給我們進行多特征的切分統計，示例如下

data.type.value_counts()

輸出結果為：（這里就會把單元格中的資料作為一次的統計標準，只要是出現全部一樣，就統計一次計數）
在這里插入圖片描述
這種情況下直接進行value_counts()就沒有辦法滿足要求了，因此需要對這個欄位的資料進行處理，處理的方式，有三種，但是根本的方式都是轉化為串列，然后再進行統計計數

3.1 將所有的特征都添加到串列中，轉化為Series資料進行計數

基本步驟是首先創建一個空串列保存資料，接著就是遍歷欄位中所有的內容，按照特定的字符進行split切分，將切分的結果再extend到空串列中儲存，最后把這個串列轉化為Series資料進行計數，

ls = []
for item in data.type:
    ls.extend(item.split('，'))

pd.Series(ls).value_counts()

輸出結果為：（可以發現基本上滿足要求，但是有一些噪音資料需要進一步處理，這種情況是沒有辦法避免的，因為資料都是人為上報的，多多少少會存在著手動錄入的錯誤，這里的泄露也是人為錄入的錯誤）
在這里插入圖片描述
處理里面的噪音資料后再進行統計計數，代碼如下

ls = []
for item in data.type.str.replace('，','，').str.replace('露','漏'):
    ls.extend(item.split('，'))

pd.Series(ls).value_counts()

輸出結果為：（結果實作了單欄位多特征的統計計數，接下來直接就可以進行plot繪圖）
在這里插入圖片描述
比如簡單的進行柱狀圖繪制，選取前15條資料

3.2 使用字典計數的方式進行統計

使用字典中的get方式就可以實作對串列中的資料進行計數，代碼如下

d = {}
for item in data.type.str.replace('，','，').str.replace('露','漏'):
    txt_list = item.split("，")
    for w in txt_list:
        d[w] = d.get(w,0) +1
d

輸出結果為：（這樣直接就形成了一個字典對應的資料集）
在這里插入圖片描述
這里的d變數也可以直接轉化為Series資料，代碼如下

acc_type = pd.Series(list(d.values()),index = d.keys())
acc_type

輸出結果為：（通過字典來構造Series資料）
在這里插入圖片描述

3.3 使用pd.explode()方法提取多特征轉化為Series進行計數

這種方法要求pandas的版本在0.25.0以上，可以參考前面的博客關于explode方法的使用詳解，這里就直接進行操作，代碼如下，一些常用的處理資料的程序，習慣直接封裝為函式，下次再使用的時候呼叫傳入相應的引數就可以了，這里封裝的介面就是直接傳入要統計的欄位名稱即可

def explode_acc(df_col):
    df = df_col.value_counts().to_frame().reset_index()
    df['index'] = df['index'].apply(lambda x: x.split('，') if type(x) == str else str(x))
    df = df.explode('index').groupby('index').sum()
    return df
    
explode_acc(data.type.str.replace('，','，').str.replace('露','漏'))

輸出結果為：（至此使用三種方式進行單欄位多特征的統計計數就完成了）
在這里插入圖片描述

4 繪制時間序列事故圖

比如這里選擇呈現的是不同時間的事故起數和死亡人數，直接將程序的處理封裝為函式，然后進行相應引數的傳遞即可，但是注意一下欄位的資料型別，都應該是數值型別

def accident_count(df,column_1,column_2):
    df_ = df.groupby(column_1).agg({column_1:'count',column_2:'sum'}) 
    df_['account'] = (df_[column_1] / df_[column_1].sum()).map(lambda x:f'{round(x*100,2)}%')
    return df_

4.1 按照年份進行繪制

直接就是傳入資料欄位和要統計的死亡人數欄位，代碼如下，后兩個引數就對應欄位的名稱，但是對應欄位的數字型別應該是為數值型

data.death_num = data.death_num.astype(int)
data_year = accident_count(data,'year','death_num')
data_year

輸出結果為：（這樣輸出結果的第一列就是事故起數，第二列就為死亡人數，最后一列為事故占比）
在這里插入圖片描述
既然資料已經統計出來了，接著就是進行資料的繪圖操作，代碼如下

fig,ax = plt.subplots(figsize = (12,8))

ax.set_ylim(0,80)

ax.bar(data_year.index,data_year.year,width=0.6,edgecolor='k',color='gray',alpha = 0.8,label = '每年事故總量/起')
ax.legend(loc=(0.754,0.93))
ax.set_xlabel('事故發生年份')
ax.set_ylabel('事故數量/起')
ax.spines['top'].set_visible(False)

for i,j,k in zip(data_year.index,data_year.year.values,data_year.account.values):
    ax.text(i-0.13,j/2-0.1,k,fontsize = 10)
    ax.text(i-0.05,j+3,"%.0f" %j,fontsize = 10)
    
    
ax1 = ax.twinx()
ax1.spines['top'].set_visible(False)
ax1.set_ylim(0,80)
ax1.plot(data_year.index,data_year.death_num.values,label = '每年事故傷亡總人數/人',color = 'k',marker ='o')
ax1.legend(loc=(0.754,0.86))
ax1.set_ylabel('事故死亡總人數/人')
plt.savefig(r'1.png',dpi =200)

輸出結果為：（繪圖基本上就是這個程序，也是可以直接封裝函式的，方便后續的呼叫）
在這里插入圖片描述
但是有一點就是在封裝的程序中遇到一個問題就是，y軸坐標顯示的問題，為了解決這個問題，先設計一個簡單的演算法進行y軸最大值的計算，這樣保證繪制出來的圖形比較合理，演算法函式如下

#為了方便自主出圖，設計個演算法進行自動去縱軸坐標值
def ceil_up(num):
    '''
    個位數的值小于5的直接取5，大于5的向上取10
    十位數的值個位小于5的直接取5，個位大于5的，十位進1
    百位數的值十位小于5的直接取5，十位大于5的，百位進1
    千位數的值百位小于5的直接取5，百位大于5的，千位進1
    萬位數的值千位小于5的直接取5，千位大于5的，萬位進1
    '''
    if num < 10:
        if num <= 5:
            num = 5
        else:
            num =10
    elif num<100:
        if int(str(num)[-1]) < 5:
            num = int(str(num)[0])*10 + 10
        else:
            num = (int(str(num)[0]) + 1)*10
    elif num<1000:
        if int(str(num)[-2]) < 5:
            num = int(str(num)[0])*100 + 50
        else:
            num = (int(str(num)[0])+1)*100
    elif num <10000:
        if int(str(num)[-3]) < 5:
            num = int(str(num)[0])*1000 + 500
        else:
            num = (int(str(num)[0])+1)*1000 
    elif num <100000:
        if int(str(num)[-4]) < 5:
            num = int(str(num)[0])*10000 + 5000
        else:
            num = (int(str(num)[0])+1)*10000
    return num

最后就是直接把出圖的程序封裝為函式，方便呼叫，同時保留幾個引數傳入的介面，這里使用的是表示時間的欄位和要保存圖片的路徑，方便直接一步到位，代碼如下

def plot_accident_figure(df_time,period,dir_path):
    import os
    plt.rcParams['font.family'] = ['sans-serif']
    plt.rcParams['font.sans-serif'] = ['SimHei']

    fig,ax = plt.subplots(figsize = (12,8))
    y1_max_data = df_time.iloc[:,0].max()
    ax.set_ylim(0,ceil_up(y1_max_data))   #根據直接的要求調整y軸的顯示
#    ax.set_yticks(range(0,ceil_up(y1_max_data)+1,50))

    ax.bar(df_time.index,df_time.iloc[:,0],width=0.6,edgecolor='k',color='gray',alpha = 0.8,label = f'每{period}事故總量/起')
#     ax.legend(loc=(0.754,0.93))
    ax.set_xlabel(f'事故發生{period}')
    ax.set_ylabel('事故數量/起')
    ax.spines['top'].set_visible(False)
    
    if all(type(x)==int for x in df_time.index.tolist()):
        for i,j,k in zip(df_time.index,df_time.iloc[:,0].values,df_time.account.values):
            ax.text(i-0.13,j/2-0.1,k,fontsize = 10)
            ax.text(i-0.05,j+1,"%.0f" %j,fontsize = 10)
    else:
        for i,j,k in zip(range(0,len(df_time.index)),df_time.iloc[:,0].values,df_time.account.values):
            ax.text(i-0.13,j/2-0.1,k,fontsize = 10)
            ax.text(i-0.05,j+1,"%.0f" %j,fontsize = 10)

    
    ax1 = ax.twinx()
    ax1.spines['top'].set_visible(False)
    y2_max_data = df_time.iloc[:,1].max()
    ax1.set_ylim(0,ceil_up(y2_max_data))  #根據直接的要求調整y軸的顯示
#    ax1.set_yticks(range(0,ceil_up(y2_max_data)+10,50))
    ax1.plot(df_time.index,df_time.death_num.values,label = f'每{period}事故傷亡總人數/人',color = 'r',marker ='o')
#     ax1.legend(loc=(0.754,0.86))
    ax1.set_ylabel('事故傷亡總人數/人')
    plt.savefig(os.path.join(dir_path,f'每{period}事故統計圖.png'),dpi =200)

關于這個函式中，除了剛剛講到的y軸最大值的處理外，還有一個問題就是文本標記的設定，其中如果標簽值是數字時候，那么做文本標記的時候就相對于簡單，但是如果是文本資料時候，就出現問題了，所以這里需要進行兩種判斷，最后按照標簽的資料型別進行文本標記

使用這個封裝的函式試一下繪圖如何，代碼如下

path = r'C:\Users\86177\Desktop'
plot_accident_figure(data_year,'年份',path)

輸出結果為：（可以發現兩側的y軸的最大值會跟著資料的最大值變化，而不需要人為指定）
在這里插入圖片描述

4.2 按照季度進行繪制

前面已經封裝好函式了，這里只需要進行季度資料的獲取即可，代碼如下

data['season'] = pd.cut(data['month'],[0,3,6,9,12],labels=['第一季度','第二季度','第三季度','第四季度'])
data.tail()

輸出結果為：（對月份欄位進行cut切割就可以得到季度的資料）
在這里插入圖片描述
然后將季度的欄位傳到封裝好的函式中去，代碼如下

data_season = accident_count(data,'season','death_num')
data_season

輸出結果為：
在這里插入圖片描述

plot_accident_figure(data,'季度',path)

輸出結果為：
在這里插入圖片描述

4.3 按照月份進行繪制

月份資料之前已經提取完畢了，這里就方便多了，直接就可以拿過來用，呼叫兩個函式就完成資料結果和繪圖輸出

data_month = accident_count(data,'month','death_num')
data_month

輸出結果為：
在這里插入圖片描述
呼叫繪圖函式直接繪制影像

plot_accident_figure(data_month,'月份',path)

輸出結果為：
在這里插入圖片描述

4.4 按照小時進行繪制

這一部分就是對小時的欄位進行處理了，難度還是有一點，代碼如下

data['one_hour'] = pd.cut(data['time'].map(str).str[:2].astype(int),list(range(-1,24)),labels=[f'{i}:00-{i+1}:00' for i in range(24)])
data

輸出結果為：（就是提取前兩個字符然后轉化為數字，按照數字的取值進行cut切分，最后就可以設定對應的labels）

在這里插入圖片描述
那么兩小時的欄位處理也就類似了

data['two_hour'] = pd.cut(data['time'].map(str).str[:2].astype(int),list(range(-1,25,2)),labels=[f'{i}:00-{i+2}:00' for i in range(0,24,2)])
data[['time','one_hour','two_hour']]

輸出結果為：
在這里插入圖片描述
采用兩小時的欄位資料進行統計和繪圖，操作如下

data_two_hour = accident_count(data,'two_hour','death_num')
data_two_hour

輸出結果為：
在這里插入圖片描述
最后就是繪圖了

至此全部就梳理完畢了，撒花~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/212845.html

標籤：其他

上一篇：druid 聚合結果集超過1000萬就會采用科學計數法，請問怎么解除這個限制

下一篇：啟動時為什么要去找0001.vmdk的磁盤檔案？

時間序列特征分析匯總（以2012-2019年槽罐車事故資料為例）

事故時間特征序列分析匯總

引言

1 資料讀取和時間特征轉化

1.1 先將時間的欄位組合成為統一的形式

1.2 再將標準形式的日期欄位轉化為datetime

1.3 提取年、月、日欄位資訊

1.4 查看日期是在第幾周

1.5 查看日期是在周幾

2 特定欄位的資料提取

2.1 字串extract方法使用

2.2 apply/map結合正則表達使用

3 單欄位多特征進行計數統計

3.1 將所有的特征都添加到串列中，轉化為Series資料進行計數

3.2 使用字典計數的方式進行統計

3.3 使用pd.explode()方法提取多特征轉化為Series進行計數

4 繪制時間序列事故圖

4.1 按照年份進行繪制

4.2 按照季度進行繪制

4.3 按照月份進行繪制

4.4 按照小時進行繪制