Chọn hàng đầu tiên theo nhóm

Question 1

Từ khung dữ liệu như thế này

test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10])
test <- test[order(test$id), ]
rownames(test) <- 1:10

> test
    id string
 1   1      A
 2   1      F
 3   2      B
 4   2      G
 5   3      C
 6   3      H
 7   4      D
 8   4      I
 9   5      E
 10  5      J

Tôi muốn tạo một cái mới với hàng đầu tiên của mỗi cặp id / chuỗi. Nếu sqldf chấp nhận mã R bên trong nó, truy vấn có thể trông như sau:

res <- sqldf("select id, min(rownames(test)), string 
              from test 
              group by id, string")

> res
    id string
 1   1      A
 3   2      B
 5   3      C
 7   4      D
 9   5      E

Có giải pháp nào ngắn để tạo một cột mới như

test$row <- rownames(test)

và chạy cùng một truy vấn sqldf với min (row)?

Question 2

Bạn có thể sử dụng duplicatedđể làm điều này rất nhanh chóng.

test[!duplicated(test$id),]

Điểm chuẩn, dành cho những kẻ kỳ quái về tốc độ:

ju <- function() test[!duplicated(test$id),]
gs1 <- function() do.call(rbind, lapply(split(test, test$id), head, 1))
gs2 <- function() do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
jply <- function() ddply(test,.(id),function(x) head(x,1))
jdt <- function() {
  testd <- as.data.table(test)
  setkey(testd,id)
  # Initial solution (slow)
  # testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)]
  # Faster options :
  testd[!duplicated(id)]               # (1)
  # testd[, .SD[1L], by=key(testd)]    # (2)
  # testd[J(unique(id)),mult="first"]  # (3)
  # testd[ testd[,.I[1L],by=id] ]      # (4) needs v1.8.3. Allows 2nd, 3rd etc
}

library(plyr)
library(data.table)
library(rbenchmark)

# sample data
set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]

benchmark(ju(), gs1(), gs2(), jply(), jdt(),
    replications=5, order="relative")[,1:6]
#     test replications elapsed relative user.self sys.self
# 1   ju()            5    0.03    1.000      0.03     0.00
# 5  jdt()            5    0.03    1.000      0.03     0.00
# 3  gs2()            5    3.49  116.333      2.87     0.58
# 2  gs1()            5    3.58  119.333      3.00     0.58
# 4 jply()            5    3.69  123.000      3.11     0.51

Hãy thử lại lần nữa, nhưng chỉ với những ứng cử viên từ lần đầu tiên và với nhiều dữ liệu hơn và nhiều bản sao hơn.

set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
benchmark(ju(), jdt(), order="relative")[,1:6]
#    test replications elapsed relative user.self sys.self
# 1  ju()          100    5.48    1.000      4.44     1.00
# 2 jdt()          100    6.92    1.263      5.70     1.15

Question 3

Tôi ủng hộ cách tiếp cận dplyr.

group_by(id) tiếp theo là một trong hai

filter(row_number()==1) hoặc là
slice(1) hoặc là
slice_head(1) # (dplyr => 1.0)
top_n(n = -1)
- top_n()nội bộ sử dụng chức năng xếp hạng. Các lựa chọn phủ định từ cuối bảng xếp hạng.

Trong một số trường hợp, việc sắp xếp id sau group_by có thể cần thiết.

library(dplyr)

# using filter(), top_n() or slice()

m1 <-
test %>% 
  group_by(id) %>% 
  filter(row_number()==1)

m2 <-
test %>% 
  group_by(id) %>% 
  slice(1)

m3 <-
test %>% 
  group_by(id) %>% 
  top_n(n = -1)

Cả ba phương pháp đều trả về cùng một kết quả

# A tibble: 5 x 2
# Groups:   id [5]
     id string
  <int> <fct> 
1     1 A     
2     2 B     
3     3 C     
4     4 D     
5     5 E

Question 4

Thế còn

DT <- data.table(test)
setkey(DT, id)

DT[J(unique(id)), mult = "first"]

Biên tập

Ngoài ra còn có một phương pháp duy nhất data.tablessẽ trả về hàng đầu tiên theo khóa

jdtu <- function() unique(DT)

Tôi nghĩ rằng, nếu bạn đang đặt hàng testbên ngoài điểm chuẩn, thì bạn cũng có thể xóa setkeyvà data.tablechuyển đổi khỏi điểm chuẩn (vì setkey về cơ bản sắp xếp theo id, giống như vậy order).

set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]
DT <- data.table(DT, key = 'id')
ju <- function() test[!duplicated(test$id),]

jdt <- function() DT[J(unique(id)),mult = 'first']


 library(rbenchmark)
benchmark(ju(), jdt(), replications = 5)
##    test replications elapsed relative user.self sys.self 
## 2 jdt()            5    0.01        1      0.02        0        
## 1  ju()            5    0.05        5      0.05        0

và với nhiều dữ liệu hơn

** Chỉnh sửa bằng phương pháp duy nhất **

set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
DT <- data.table(test, key = 'id')
       test replications elapsed relative user.self sys.self 
2  jdt()            5    0.09     2.25      0.09     0.00    
3 jdtu()            5    0.04     1.00      0.05     0.00      
1   ju()            5    0.22     5.50      0.19     0.03

Phương pháp duy nhất là nhanh nhất ở đây.

Question 5

Một ddplylựa chọn đơn giản :

ddply(test,.(id),function(x) head(x,1))

Nếu tốc độ là một vấn đề, một cách tiếp cận tương tự có thể được thực hiện với data.table:

testd <- data.table(test)
setkey(testd,id)
testd[,.SD[1],by = key(testd)]

hoặc điều này có thể nhanh hơn đáng kể:

testd[testd[, .I[1], by = key(testd]$V1]

Question 6

bây giờ, cho dplyr, thêm một bộ đếm riêng biệt.

df %>%
    group_by(aa, bb) %>%
    summarise(first=head(value,1), count=n_distinct(value))

Bạn tạo nhóm, họ tóm tắt trong nhóm.

Nếu dữ liệu là số, bạn có thể sử dụng:
first(value)[there also last(value)] thay chohead(value, 1)

xem: http://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html

Đầy:

> df
Source: local data frame [16 x 3]

   aa bb value
1   1  1   GUT
2   1  1   PER
3   1  2   SUT
4   1  2   GUT
5   1  3   SUT
6   1  3   GUT
7   1  3   PER
8   2  1   221
9   2  1   224
10  2  1   239
11  2  2   217
12  2  2   221
13  2  2   224
14  3  1   GUT
15  3  1   HUL
16  3  1   GUT

> library(dplyr)
> df %>%
>   group_by(aa, bb) %>%
>   summarise(first=head(value,1), count=n_distinct(value))

Source: local data frame [6 x 4]
Groups: aa

  aa bb first count
1  1  1   GUT     2
2  1  2   SUT     2
3  1  3   SUT     3
4  2  1   221     3
5  2  2   217     3
6  3  1   GUT     2

Question 7

(1) SQLite có một rowidcột giả được tích hợp sẵn để nó hoạt động:

sqldf("select min(rowid) rowid, id, string 
               from test 
               group by id")

cho:

  rowid id string
1     1  1      A
2     3  2      B
3     5  3      C
4     7  4      D
5     9  5      E

(2) sqldfBản thân nó cũng có một row.names=đối số:

sqldf("select min(cast(row_names as real)) row_names, id, string 
              from test 
              group by id", row.names = TRUE)

cho:

  id string
1  1      A
3  2      B
5  3      C
7  4      D
9  5      E

(3) Phương án thay thế thứ ba kết hợp các yếu tố của hai điều trên có thể còn tốt hơn:

sqldf("select min(rowid) row_names, id, string 
               from test 
               group by id", row.names = TRUE)

cho:

  id string
1  1      A
3  2      B
5  3      C
7  4      D
9  5      E

Lưu ý rằng cả ba điều này đều dựa trên một phần mở rộng SQLite cho SQL trong đó việc sử dụng minhoặc maxđược đảm bảo sẽ dẫn đến các cột khác được chọn từ cùng một hàng. (Trong các cơ sở dữ liệu dựa trên SQL khác có thể không được đảm bảo.)

Question 8

Một tùy chọn cơ bản R là split()- lapply()- do.call()thành ngữ:

> do.call(rbind, lapply(split(test, test$id), head, 1))
  id string
1  1      A
2  2      B
3  3      C
4  4      D
5  5      E

Một lựa chọn trực tiếp hơn là để lapply()các [chức năng:

> do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
  id string
1  1      A
2  2      B
3  3      C
4  4      D
5  5      E

Dấu phẩy 1, )ở cuối lapply()cuộc gọi là điều cần thiết vì điều này tương đương với việc gọi [1, ]để chọn hàng đầu tiên và tất cả các cột.