我正在嘗試撤消倒排索引以生成純文本格式。我很少使用 Python,所以我只是使用幾年前我記得的東西來生成演算法。這是我要列印的內容:
盡管對學術文獻的開放獲取 (OA) 越來越感興趣,但對評估 OA 的流行和特征的大規模、最新和可重復的研究的需求尚未得到滿足。我們使用 oaDOI 來滿足這一需求,這是一種開放的在線服務,可確定 6700 萬篇文章的 OA 狀態。我們使用三個樣本(每篇 100,000 篇文章)來調查三個人群中的 OA:(1)分配了 Crossref DOI 的所有期刊文章,(2)最近被 Web of Science 索引的期刊文章,以及(3)Unpaywall 用戶查看的文章,一個開源瀏覽器擴展程式,允許用戶使用 oaDOI 查找 OA 文章。我們估計至少 28% 的學術文獻是 OA(總共 1900 萬),并且這一比例正在增長,尤其是受到黃金和混合增長的推動。分析的最近一年(2015 年)的 OA 比例也最高(45%)。由于這種增長,以及讀者不成比例地訪問更新文章的事實,我們發現 Unpaywall 用戶經常遇到 OA:他們查看的文章中有 47% 是 OA。值得注意的是,OA 最常見的機制不是黃金、綠色或混合 OA,而是我們稱之為青銅的一個討論不足的類別:在出版商網站上免費閱讀的文章,沒有明確的開放許可。我們還檢查了 OA 文章的參考影響,證實了所謂的開放獲取參考優勢:考慮到年齡和學科,OA 文章的參考次數比平均水平高 18%,這種影響主要由綠色和混合 OA 驅動。我們鼓勵使用免費的 oaDOI 服務進行進一步的研究,以此作為了解 OA 政策和實踐的一種方式。由于這種增長,以及讀者不成比例地訪問更新文章的事實,我們發現 Unpaywall 用戶經常遇到 OA:他們查看的文章中有 47% 是 OA。值得注意的是,OA 最常見的機制不是黃金、綠色或混合 OA,而是我們稱之為青銅的一個討論不足的類別:在出版商網站上免費閱讀的文章,沒有明確的開放許可。我們還檢查了 OA 文章的參考影響,證實了所謂的開放獲取參考優勢:考慮到年齡和學科,OA 文章的參考次數比平均水平高 18%,這種影響主要由綠色和混合 OA 驅動。我們鼓勵使用免費的 oaDOI 服務進行進一步的研究,以此作為了解 OA 政策和實踐的一種方式。由于這種增長,以及讀者不成比例地訪問更新文章的事實,我們發現 Unpaywall 用戶經常遇到 OA:他們查看的文章中有 47% 是 OA。值得注意的是,OA 最常見的機制不是黃金、綠色或混合 OA,而是我們稱之為青銅的一個討論不足的類別:在出版商網站上免費閱讀的文章,沒有明確的開放許可。我們還檢查了 OA 文章的參考影響,證實了所謂的開放獲取參考優勢:考慮到年齡和學科,OA 文章的參考次數比平均水平高 18%,這種影響主要由綠色和混合 OA 驅動。我們鼓勵使用免費的 oaDOI 服務進行進一步的研究,以此作為了解 OA 政策和實踐的一種方式。我們發現 Unpaywall 用戶遇到 OA 的頻率很高:他們查看的文章中有 47% 是 OA。值得注意的是,OA 最常見的機制不是黃金、綠色或混合 OA,而是我們稱之為青銅的一個討論不足的類別:在出版商網站上免費閱讀的文章,沒有明確的開放許可。我們還檢查了 OA 文章的參考影響,證實了所謂的開放獲取參考優勢:考慮到年齡和學科,OA 文章的參考次數比平均水平高 18%,這種影響主要由綠色和混合 OA 驅動。我們鼓勵使用免費的 oaDOI 服務進行進一步的研究,以此作為了解 OA 政策和實踐的一種方式。我們發現 Unpaywall 用戶遇到 OA 的頻率很高:他們查看的文章中有 47% 是 OA。值得注意的是,OA 最常見的機制不是黃金、綠色或混合 OA,而是我們稱之為青銅的一個討論不足的類別:在出版商網站上免費閱讀的文章,沒有明確的開放許可。我們還檢查了 OA 文章的參考影響,證實了所謂的開放獲取參考優勢:考慮到年齡和學科,OA 文章的參考次數比平均水平高 18%,這種影響主要由綠色和混合 OA 驅動。我們鼓勵使用免費的 oaDOI 服務進行進一步的研究,以此作為了解 OA 政策和實踐的一種方式。而是一個討論不足的類別,我們稱之為青銅:在出版商網站上免費閱讀的文章,沒有明確的開放許可。我們還檢查了 OA 文章的參考影響,證實了所謂的開放獲取參考優勢:考慮到年齡和學科,OA 文章的參考次數比平均水平高 18%,這種影響主要由綠色和混合 OA 驅動。我們鼓勵使用免費的 oaDOI 服務進行進一步的研究,以此作為了解 OA 政策和實踐的一種方式。而是一個討論不足的類別,我們稱之為青銅:在出版商網站上免費閱讀的文章,沒有明確的開放許可。我們還檢查了 OA 文章的參考影響,證實了所謂的開放獲取參考優勢:考慮到年齡和學科,OA 文章的參考次數比平均水平高 18%,這種影響主要由綠色和混合 OA 驅動。我們鼓勵使用免費的 oaDOI 服務進行進一步的研究,以此作為了解 OA 政策和實踐的一種方式。
這是倒排索引中的資料(可以在“abstract_inverted_index”-> https://api.openalex.org/W2741809807下找到):
"abstract_inverted_index":{"Despite":[0],"growing":[1],"interest":[2],"in":[3,57,73,110,122],"Open":[4,201],"Access":[5],"(OA)":[6],"to":[7,54,252],"scholarly":[8,105],"literature,":[9],"there":[10],"is":[11,107,116,176],"an":[12,34,85,185,199,231],"unmet":[13],"need":[14,31],"for":[15,42,174,219],"large-scale,":[16],"up-to-date,":[17],"and":[18,24,77,112,124,144,221,237,256],"reproducible":[19],"studies":[20],"assessing":[21],"the":[22,104,134,145,170,195,206,213,245],"prevalence":[23],"characteristics":[25],"of":[26,51,75,83,103,137,141,163,209],"OA.":[27,168,239],"We":[28,46,97,203,240],"address":[29],"this":[30,114,142],"using":[32,95,244],"oaDOI,":[33],"open":[35],"online":[36],"service":[37],"that":[38,89,99,113,147,155],"determines":[39],"OA":[40,56,93,108,138,159,175,210,223,254],"status":[41],"67":[43],"million":[44],"articles.":[45],"use":[47],"three":[48,58],"samples,":[49],"each":[50],"100,000":[52],"articles,":[53,152,211],"investigate":[55],"populations:":[59],"(1)":[60],"all":[61],"journal":[62,70],"articles":[63,71,79,94,164,191,224],"assigned":[64],"a":[65,250],"Crossref":[66],"DOI,":[67],"(2)":[68],"recent":[69,128],"indexed":[72],"Web":[74],"Science,":[76],"(3)":[78],"viewed":[80],"by":[81,120,235],"users":[82,91,157],"Unpaywall,":[84],"open-source":[86],"browser":[87],"extension":[88],"lets":[90],"find":[92,154],"oaDOI.":[96],"estimate":[98],"at":[100],"least":[101],"28%":[102],"literature":[106],"(19M":[109],"total)":[111],"proportion":[115],"growing,":[117],"driven":[118,233],"particularly":[119],"growth":[121],"Gold":[123],"Hybrid.":[125],"The":[126],"most":[127,171],"year":[129],"analyzed":[130],"(2015)":[131],"also":[132,204],"has":[133],"highest":[135],"percentage":[136],"(45%).":[139],"Because":[140],"growth,":[143],"fact":[146],"readers":[148],"disproportionately":[149],"access":[150],"newer":[151],"we":[153,188],"Unpaywall":[156],"encounter":[158],"quite":[160],"frequently:":[161],"47%":[162],"they":[165],"view":[166],"are":[167],"Notably,":[169],"common":[172],"mechanism":[173],"not":[177],"Gold,":[178],"Green,":[179],"or":[180],"Hybrid":[181,238],"OA,":[182],"but":[183],"rather":[184],"under-discussed":[186],"category":[187],"dub":[189],"Bronze:":[190],"made":[192],"free-to-read":[193],"on":[194],"publisher":[196],"website,":[197],"without":[198],"explicit":[200],"license.":[202],"examine":[205],"citation":[207,216],"impact":[208],"corroborating":[212],"so-called":[214],"open-access":[215],"advantage:":[217],"accounting":[218],"age":[220],"discipline,":[222],"receive":[225],"18%":[226],"more":[227],"citations":[228],"than":[229],"average,":[230],"effect":[232],"primarily":[234],"Green":[236],"encourage":[241],"further":[242],"research":[243],"free":[246],"oaDOI":[247],"service,":[248],"as":[249],"way":[251],"inform":[253],"policy":[255],"practice.":[257]}
這是我當前解碼反轉的代碼,但它只回傳
import requests
abstractInvertedIndex = requests.get(
'https://api.openalex.org/W2741809807'
).json()['abstract_inverted_index']
arrayAbstractIndex = [[k, abstractInvertedIndex[k]] for k in abstractInvertedIndex]
# Position of the word in the abstract
wordPos = 0
# The number position of the key value
wordNum = 0
abstract = ""
for x in arrayAbstractIndex:
if wordPos in arrayAbstractIndex[wordNum][1]:
abstract = abstract str(arrayAbstractIndex[wordNum][0] ' ')
wordPos = wordPos 1
wordNum = wordNum 1
print(abstract)
盡管對學術文獻的開放獲取 (OA) 越來越感興趣,但對評估流行率的大規模、最新和可重復的研究的需求尚未得到滿足
我知道這是因為“and”這個詞在索引中有多個位置,但是,我不知道如何配置 Python for 回圈來遍歷每個字典值和鍵中的所有陣列項確定列印整個純文本?
有什么建議么?
uj5u.com熱心網友回復:
abstractInvertedIndex
是一個單詞字典:[indices]。從這本詞典中,首先得到一個 (word,index) 對的串列word_index = [] for k,v in abstractInvertedIndex.items(): for index in v: word_index.append([k,index])
現在對該串列進行排序
word_index
以保留索引順序word_index = sorted(word_index,key = lambda x : x[1])
最后只
word_index
用空格加入串列中的單詞
盡管人們對開放存取 (OA) 的興趣越來越大……作為一種告知 OA 政策和實踐的方式。
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/470713.html
上一篇:在回圈中執行具有間隔的任務