我正在通過這個 html 報廢,我想提取里面的文本<span data-testid="distance">
<span class="class1">
<span data-testid="distance">the text i want</span>
</span>
<span class="class2">
<span class="class1"><span>the other text i'm obtaining</span>
</span>
distancia <- hoteles_verdes %>%
html_elements("span.class1") %>%
html_text()
問題是如何隔離 html 元素上的 data-testid="distance" 以便稍后檢索 html_text。
這是我發布的第一個問題。謝謝!
uj5u.com熱心網友回復:
您可以使用CSS 屬性選擇器。
例如, [attribute|="value"] 選擇器選擇attribute
"data-testid" with value
= "distance" (注意單引號和雙引號):
library(rvest)
hoteles_verdes %>%
html_nodes('[data-testid|="distance"]') %>%
html_text()
結果:
[1] "the text i want"
資料:
hotel_verdes <- read_html('<span class="class1">
<span data-testid="distance">the text i want</span>
</span>
<span class="class2">
<span class="class1"><span>the other text im obtaining</span>
</span>')
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/468777.html
上一篇:想從網頁中提取表格資訊