計算分組資料的平均rle$lengths-有解無憂

我想使用rle()分組資料計算狀態持續時間。這是測驗資料框：

DF <- read.table(text="Time,x,y,sugar,state,ID
0,31,21,0.2,0,L0
1,31,21,0.65,0,L0
2,31,21,1.0,0,L0
3,31,21,1.5,1,L0
4,31,21,1.91,1,L0
5,31,21,2.3,1,L0
6,31,21,2.75,0,L0
7,31,21,3.14,0,L0
8,31,22,3.0,2,L0
9,31,22,3.47,1,L0
10,31,22,3.930,0,L0
0,37,1,0.2,0,L1
1,37,1,0.65,0,L1
2,37,1,1.089,0,L1
3,37,1,1.5198,0,L1
4,36,1,1.4197,2,L1
5,36,1,1.869,0,L1
6,36,1,2.3096,0,L1
7,36,1,2.738,0,L1
8,36,1,3.16,0,L1
9,36,1,3.5703,0,L1
10,36,1,3.970,0,L1
", header = TRUE, sep =",")

我想知道狀態 == 1 的平均長度，按 ID 分組。我創建了一個受以下啟發的函式：https : //www.reddit.com/r/rstats/comments/brpzo9/tidyverse_groupby_and_rle/ 來計算 rle 平均部分：

rle_mean_lengths = function(x, value) {
  r = rle(x)
  cond = r$values == value 
  data.frame(count = sum(cond), avg_length = mean(r$lengths[cond]))
}

然后我在分組方面添加：

DF %>% group_by(ID) %>% do(rle_mean_lengths(DF$state,1))

但是，生成的值不正確：

ID	數數	平均長度

1 L0	2	2
2 L1	2	2

L0 是正確的，L1 沒有 state == 1 的實體，因此平均值應該為零或 NA。我將問題分解為簡單的總結：

DF %>% group_by(ID) %>% summarize_at(vars(state),list(name=mean)) # This works but if I use summarize it gives me weird values again.

如何為 do() 執行等效的 summarise_at()？還是有其他解決方法？謝謝

uj5u.com熱心網友回復：

由于它是一個 data.frame 列，我們可能需要unnest之后

library(dplyr)
library(tidyr)
DF %>% 
 group_by(ID) %>%
  summarise(new = list(rle_mean_lengths(state, 1)), .groups = "drop") %>%
  unnest(new)

或洗掉list和unpack

 DF %>% 
  group_by(ID) %>%
  summarise(new = rle_mean_lengths(state, 1), .groups = "drop") %>% 
  unpack(new)
# A tibble: 2 × 3
  ID    count avg_length
  <chr> <int>      <dbl>
1 L0        2          2
2 L1        0        NaN

在 OP 的do代碼中，應該提取的列不應該來自整個資料，而是來自來自 lhs ie 的資料.（注意這do是不推薦使用的。所以最好使用summarisewithunnest/unpack

DF %>% 
  group_by(ID) %>%
  do(rle_mean_lengths(.$state,1))
# A tibble: 2 × 3
# Groups:   ID [2]
  ID    count avg_length
  <chr> <int>      <dbl>
1 L0        2          2
2 L1        0        NaN

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/464566.html

標籤：r 数据框功能通过...分组分组

上一篇：Oracle函式回傳VALUES之間的隨機日期和時間戳

下一篇：應用帶有def函式的For回圈來生成其他DataFrame？