主頁 > 後端開發 > python multiprocessing庫使用記錄

python multiprocessing庫使用記錄

2023-07-08 07:52:05 後端開發

python multiprocessing庫使用記錄

需求是想并行呼叫形式化分析工具proverif,同時發起對多個query的分析(378個),實驗室有40核心80執行緒的服務器(雙cpu,至強gold 5218R*2),

觀察到單個命令在分析時記憶體占用不大,且只使用單核心執行,因此考慮同時呼叫多個命令同時執行分析,加快結果輸出,

最底層的邏輯是呼叫多個命令列陳述句,和在命令列直接執行proverif陳述句類似,在python中也就是使用 os.system()函式實作命令呼叫,然而由于存在如下問題,需要考慮使用多行程multiprocessing庫,

  • 如果使用多執行緒threading庫,由于GIL的存在,是否會因為一個行程未執行結束而無法發起新的行程?
  • query數量很大的原因來自于多場景分析,同時對于同一場景下的query也希望可以并行推進,同時分析,
  • query數量大+場景多,得到很多結果,每條分析陳述句都有各自不同的位置,需要生成大量的命令,
  • 每條query執行完成后會給出分析結果,雖然分析結果會以html檔案的形式輸出到指定結果檔案夾,但是不能對分析結果做統一的分析,仍舊需要逐個閱讀,希望能在輸出后即時統計,原有輸出不變,還能給出分析結果表,
  • 盡管proverif在分析上速度已經很好了,但是仍然有62條query在30000秒(8.3h)后未給出結果,希望能夠統計每一條query的運行時間并記錄,并能夠提供當前仍在執行的query數量,
    • 進一步的,設定最高分析時長上限(如48h),若超出上限則終止分析,
    • 對于一些可達性查詢(reachability,實作方法是:在物體執行最后,在公開信道上發送執行完成標記,檢查攻擊者是否檢驗物體代碼是否正確,以及攻擊者是否能夠阻止合法物體正常執行程式(如何做?)),會出現構建攻擊路徑很慢的情況,但是實際上已經給出了goal reachable的結果,對于這種其實無需浪費更多時間,可以把reachability的query添加 set reconstructTrace = false .以提前結束,
    • 對于數量監控,需要多行程讀寫共享變數;對于運行時間記錄,需要多行程讀寫同一個檔案,

mutliprocessing庫使用

主要使用multiprocessing.Pool()來創建行程池,當前python行程會創建新的python行程用于執行函式,(win下是子行程,linux下是fork)

由于存在作業系統上的差異,請使用if __name__ == '__main__':來撰寫主函式,否則可能出現問題,主函式內容如下,

query_num = multiprocessing.Value('i', 0)

def long_time_task(c, ):
    start = time.time()
    os.system(c)
    end = time.time()
    # task_name=...
    with query_num.get_lock():
        query_num.value -= 1
        print('Task %s runs %0.2f seconds. ' % (task_name, (end - start)) + str(query_num.value) + ' left.')
    return 'Task %s runs %0.2f seconds.' % (task_name, (end - start))


def call_back(s):
    with open('/home/dell/proverif/DDS/time.txt', "a+") as file:
        file.writelines(s + '\n')
        

if __name__ == '__main__':
    query_list = extract(path_query, 'query', '.')
    query_file_path_list = query_file(query_list)
    whole_cS = compromise_Scenarios(path_compromise, path_process_whole, work_path)
    MAC_cS = compromise_Scenarios(path_compromise, path_process_MAC, work_path)
    cmd = []
    cmd += (pv_cmd(query_file_path_list, whole_cS, path_result))
    cmd += (pv_cmd(query_file_path_list, MAC_cS, path_result))
    p = Pool(len(cmd))
    query_num.value = https://www.cnblogs.com/biing/archive/2023/07/07/len(cmd)
    # for i in cmd:
    #     p.apply_async(long_time_task, args=(i,), callback=call_back)

    results = [p.apply_async(long_time_task, (i,), callback=call_back) for i in cmd]

    print('Waiting for all subprocesses done...')
    output = [result.get(timeout=24*60*60) for result in results]
    # p.close()
    # p.join()
    print('All subprocesses done.')
    

主函式前7行為文本處理,其內容不細表,

第8行p = Pool(len(cmd))創建了行程池,其長度為cmd的個數,也就是我們要同時發起這么多個行程,接下來注釋掉的回圈是常規的多行程發起辦法,即使用apply_async函式執行我們要的函式,args是long_time_task的引數,由于需要為Iterable且只有一個引數,因此以元組形式傳入,

call_back引數為回呼函式,這里很像go語言下的defer,會在函式執行后再執行,回呼函式接受long_time_task的回傳值作為引數,我們使用這個機制實作多行程寫檔案,long_time_task在回傳后會受到行程池p的調度,依次執行寫檔案操作,因此避免了同時寫引起沖突,

對于剩余的query數量,使用全域變數query_num = multiprocessing.Value('i', 0),這樣的變數具有鎖,可以供多行程讀寫,每個query在完成后會將數量減一,輸出時間和剩余數量,使用with query_num.get_lock():獲得鎖,避免讀寫沖突,并在使用完成后自動釋放,

這已經滿足了基本需求,還有一個定時終止的功能有待實作,接下來再介紹我不斷修改的思路,

多行程定時終止

單行程定時終止

process = multiprocessing.Process(target=long_time_task)

# 啟動行程
process.start()

# 設定運行時長上限(48小時)
timeout = 48 * 60 * 60  # 以秒為單位

# 創建定時器,在指定時間后終止行程
timer = multiprocessing.Timer(timeout, process.terminate)
timer.start()

# 等待行程結束
process.join()

使用定時器的辦法,在一定時間后呼叫我們創建行程的process.terminate()方法結束行程,但我們需要多行程并行,

多行程定時終止

pool = multiprocessing.Pool()

# 準備要執行函式的引數串列
inputs = [1, 2, 3, 4, 5]

# 執行函式,并設定最大運行時長為30秒
result = pool.map_async(long_time_task, inputs)

# 獲取結果,最多等待30秒
output = result.get(timeout=48 * 60 * 60)

map_async方法可以將函式應用于可迭代的引數串列,并回傳一個AsyncResult物件,可以使用該物件的get方法獲取結果,map_async方法將任務提交給行程池后會立即回傳,并不會等待所有任務執行完成,如果在get方法獲取結果時,其中某些任務仍在執行,將會等待直到超時,get方法擁有timeout引數,超時后會raise TimeoutError,報錯終止python程式的運行,因此如果想輸出已完成的結果,有兩個思路:

  1. try-except捕獲TimeoutError,并針對處理,
  2. 對每個結果都使用get方法并設定超時時間,

串列推導式

results = [p.apply_async(long_time_task, (i,), callback=call_back) for i in cmd]

print('Waiting for all subprocesses done...')
output = [result.get(timeout=24*60*60) for result in results]
# p.close()
# p.join()
print('All subprocesses done.')

使用apply_async方法來執行函式,該方法會也會回傳一個AsyncResult物件,我們將這些物件放入results陣列,接著使用陣列中每個元素的結果組成output陣列并定義超時時間,這樣就可以執行call_back函式了,output內容其實不是很重要,主要是為了使用AsyncResult物件的get方法來設定定時器,

不過這樣還是需要try-except捕獲TimeoutError,以處理超時未完成的query,這樣做比map_async好在哪里?我在使用的時候map_async似乎不能成功呼叫回呼函式,還有待試驗,此外,該方法并不能在設定時間時準時停下,例如我設定時間5s,則會在約12秒時才停止,

還有一個問題是,在pycharm里運行腳本時,會有部分行程無法結束,暫不清楚其原因,也不確定命令列下執行腳本是否存在同樣的問題,

與Go相比

顯著的感覺到python在處理多行程、多執行緒、并發等問題上有一定的弱點,雖然能夠通過一系列操作實作,但是做起來比較吃力,也不算太優雅,現在的腳本已經可以并行分析了,然而在任務管理器中,除了看到了378個proverif行程,還看到了378個sh和378個python??

這378個python其實是沒必要的,如果使用goroutine,發起多個協程執行shell命令即可,這樣在開銷和效率上都會更好,不過其實總的記憶體占用并不太高,所以這個點不算非常大的問題,但是如果使用更復雜的分析工具,mutliprocessing多行程呼叫就太笨拙了,

此外,在共享變數的訪問上也不那么容易,例如query_num這個共享變數,多行程的訪問就不是很方便,如果使用goroutine,則可以使用channel,創建一個monitor goroutine來接受各個goroutine的回傳值,并做計數處理;檔案讀寫也可以在channel+監視器內完成,無需考慮檔案讀寫爭用,或者也可以用mutex來互斥地讀寫檔案,

在計時器的操作上,目前只了解到python的解決辦法是拋出超時例外,這種方法會使得沒執行完畢的腳本無法正常回傳,不能給出資訊,需要根據執行結果做一些特定的例外處理,也可能這是會有部分行程無法正常結束的原因,go語言有Timer類可以執行計時器操作,有望更優雅的解決問題,

后續計劃

后續會考慮使用go語言撰寫一個專用于proverif的多行程并發分析呼叫工具,使用更優雅、效率更高的方法,實作:

  • 多行程并發呼叫
  • query分析時長記錄、分析結果匯出
  • 總分析時長上限設定,超時后正常退出,并標記超時query,

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/556769.html

標籤:其他

上一篇:python:匯入庫、模塊失敗

下一篇:返回列表

標籤雲
其他(162193) Python(38266) JavaScript(25527) Java(18291) C(15239) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7290) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4613) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1993) .NET技术(1986) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • python multiprocessing庫使用記錄

    # python multiprocessing庫使用記錄 需求是想并行呼叫形式化分析工具proverif,同時發起對多個query的分析(378個)。實驗室有40核心80執行緒的服務器(雙cpu,至強gold 5218R*2)。 觀察到單個命令在分析時記憶體占用不大,且只使用單核心執行,因此考慮同時調 ......

    uj5u.com 2023-07-08 07:52:05 more
  • python:匯入庫、模塊失敗

    一般發生在程式開始部分: `from pymodbus.client.sync import ModbusSerialClient` `from pymodbus.payload import BinaryPayloadDecoder` `from pymodbus.constants import ......

    uj5u.com 2023-07-07 07:47:05 more
  • Java 構造器

    # Java 構造器 # 1. 構造器 ## 構造器也叫構造方法,是用來完成物件的初始化。 ## 構造器的定義: > ## 構造器的定義:[訪問修飾符] 方法名(形參),構造器與方法不同,并沒有回傳值,也不能寫void,訪問修飾符可以是不同的,方法名要與本類的類名相同 > > ## 構造器的呼叫是由 ......

    uj5u.com 2023-07-07 07:47:01 more
  • 《Effective C++ 改善程式與設計的55個具體做法》讀書筆記

    ### 1 .讓自己習慣C++ #### 條款01 視C++為一個語言聯邦 * `C` * `Object-Oriented C++` * `Template C++` * `STL` * `C++`高效編程守則視情況而變化,取決于你使用`C++`的哪一部分。 #### 條款02 盡量與const, ......

    uj5u.com 2023-07-07 07:46:56 more
  • Python中startswith()和endswith()方法

    **startswith()方法** startswith() 方法用于檢索字串是否以指定字串開頭,如果是回傳 True;反之回傳 False。 **endswith()方法** endswith() 方法用于檢索字串是否以指定字串結尾,如果是則回傳 True;反之則回傳 False ``` ......

    uj5u.com 2023-07-07 07:46:51 more
  • Python中os.system()、subprocess.run()、call()、check_output(

    ### 1.os.system() os.system() 是對 C 語言中 system() 系統函式的封裝,允許執行一條命令,并回傳退出碼(exit code),命令輸出的內容會直接列印到螢屏上,無法直接獲取。 示例: ```python # test.py import os os.syste ......

    uj5u.com 2023-07-07 07:46:47 more
  • Python中標準輸入(stdin)、標準輸出(stdout)、標準錯誤(stdout)的用法

    ### 1.標準輸入 **input()、raw_input()** Python 3.x 中 input() 函式可以實作提示輸入,python 2.x 中要使用 raw_input(),例如: ```python foo = input("Enter: ") # python 2.x 要用 ra ......

    uj5u.com 2023-07-07 07:46:43 more
  • MicroPython物聯網開發入門1歡迎上賊船ESP8266

    ## 1歡迎上賊船 ### 1.1 關于本教程 這是一個針對Python初學者的教程,他們想學習對設備進行編程,以便與物理世界互動。你將學習如何使用MicroPython編程,MicroPython是專為在微控制器上運行的Python版本。你將學習如何撰寫的應用程式將從傳感器讀取資料,在小螢屏上顯示 ......

    uj5u.com 2023-07-07 07:41:10 more
  • CPython, Pypy, MicroPython...還在傻傻分不清楚?

    哈嘍大家好,我是咸魚 當我們說 Python 時,通常指的是官方實作的 CPython 但還有很多比如 Pypy、Jython、MicroPython、Brython、RustPython 等 “python” 許多小伙伴看到這些帶 “python” 的概念可能一頭霧水,心想這跟我平時接觸到的 py ......

    uj5u.com 2023-07-07 07:40:54 more
  • 基數排序

    最近又有個奇奇怪怪的題目,資料為 $n \le 1 \times 10^7$,并且還要用到排序,普通的排序肯定會超時,然后就發現了一種 $O(n)$ ## 介紹 基數排序(Radix Sort)是桶排序的擴展,它是將整數按位數切割成不同的數字,然后按每個數位分別比較以此來排序。 說詳細點,也就是將所 ......

    uj5u.com 2023-07-07 07:40:50 more