Tìm tứ phân vị trong R


33

Tôi đang làm việc thông qua sách giáo khoa thống kê khi học R và tôi gặp phải một vấp ngã trong ví dụ sau:

nhập mô tả hình ảnh ở đây

Sau khi nhìn vào ?quantiletôi đã cố gắng tạo lại điều này trong R bằng cách sau:

> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
   0%   25%   50%   75%  100% 
  6.0   9.5  16.0  28.0 104.0 

Cho rằng văn bản và R có kết quả khác nhau, tôi tập hợp rằng R đang sử dụng trung vị trong tính toán của các tứ phân vị thứ nhất và thứ ba.

Câu hỏi:

Tôi có nên bao gồm trung vị trong việc tính toán các phần tư thứ nhất và thứ ba?

Cụ thể hơn, sách giáo khoa hay R có đúng không? Nếu sách giáo khoa có điều này đúng, có cách nào để đạt được điều này trong R không?

Cảm ơn trước.

r  quantiles 

6
Một số chủ đề ở đây thảo luận về nhiều cách lượng tử có thể được tính toán hoặc ước tính. Đây là một câu trả lời có thẩm quyền , nhưng những người khác có sẵn bằng cách tìm kiếm trang web của chúng tôi. Tóm lại, sách giáo khoa của bạn dường như trình bày một phương pháp tính toán không chuẩn, nhưng quantilecác loại 1, 2 và 6 sẽ sao chép chúng cho một tập dữ liệu có kích thước cụ thể này . Không những Rphương pháp tương ứng với sách giáo khoa của bạn. (Người ta tự hỏi về chất lượng của văn bản này ...)
whuber

@whuber Cảm ơn vì nhận xét này, nó đã giúp ích rất nhiều vì tôi sợ tôi chưa có nền tảng kỹ thuật để phân biệt chính xác những loại khác nhau quantileđang làm.

@whuber: rõ ràng là không chuẩn (có lẽ được đề cập ở đâu đó trong cuốn sách), nhưng không trực quan. Bạn có nghĩ rằng nó là sai về mặt toán học?
Michael M

6
n

1
R sử dụng chín định nghĩa khác nhau về lượng tử (theo mặc định, nó sử dụng định nghĩa 7). Xem?quantile
Glen_b -Reinstate Monica

Câu trả lời:


43

Sách giáo khoa của bạn bị nhầm lẫn. Rất ít người hoặc phần mềm định nghĩa các phần tư theo cách này. (Nó có xu hướng làm cho phần tư thứ nhất quá nhỏ và phần tư thứ ba quá lớn.)

Các quantilechức năng trong Rdụng cụ chín cách khác nhau để quantiles tính toán! Để xem cái nào trong số chúng, nếu có, tương ứng với phương pháp này, hãy bắt đầu bằng cách thực hiện nó. Từ mô tả chúng ta có thể viết một thuật toán, đầu tiên là về mặt toán học và sau đó là R:

  1. x1x2xn

  2. Đối với bất kỳ tập hợp dữ liệu nào, trung vị là giá trị trung bình của nó khi có một số lượng giá trị lẻ; mặt khác, nó là giá trị trung bình của hai giá trị trung bình khi có số lượng giá trị chẵn. R's medianchức năng tính toán này.

    m=(n+1)/2(xl+xu)/2lummxml=m1u=m+1lu

  3. xiil(xi)iu

Đây là một thực hiện. Nó có thể giúp bạn làm bài tập trong sách giáo khoa này.

quart <- function(x) {
  x <- sort(x)
  n <- length(x)
  m <- (n+1)/2
  if (floor(m) != m) {
    l <- m-1/2; u <- m+1/2
  } else {
    l <- m-1; u <- m+1
  }
  c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}

Ví dụ, đầu ra của quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))đồng ý với văn bản:

Q1 Q3 
 9 33 

Chúng ta hãy tính toán các phần tư cho một số bộ dữ liệu nhỏ bằng tất cả mười phương pháp: chín trong Rvà sách giáo khoa:

y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
  j <- 1
  for (i in 1:9) {
    y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
  }
  y[, 10] <- quart(1:n)
  cat("\n", n, ":\n")
  print(y, digits=2)
}

Khi bạn chạy này và kiểm tra, bạn sẽ thấy rằng các giá trị cuốn sách giáo khoa không đồng ý với bất kỳ của các Rđầu ra cho cả ba kích thước mẫu. (Mô hình bất đồng vẫn tiếp tục trong các chu kỳ của giai đoạn ba, cho thấy vấn đề vẫn tồn tại cho dù mẫu có thể lớn đến đâu.)

9.528


3
Cảm ơn rất nhiều vì câu trả lời chi tiết như vậy cùng với việc cung cấp cho tôi các công cụ để tự làm việc và đánh giá các phương pháp khác nhau. Tôi sẽ kích hoạt chúng ngay bây giờ và xem xét mọi thứ chi tiết hơn.

2

Trong lĩnh vực thống kê (mà tôi dạy, nhưng trong đó tôi không phải là nhà nghiên cứu), các phép tính tứ phân đặc biệt mơ hồ (theo cách không nhất thiết đúng với lượng tử, nói chung hơn). Điều này có rất nhiều lịch sử đằng sau nó, một phần là do việc sử dụng (và có lẽ là lạm dụng) phạm vi liên phân vị (IQR), không nhạy cảm với các ngoại lệ, như một kiểm tra hoặc thay thế cho độ lệch chuẩn. Nó vẫn là một cuộc thi mở, với ba phương pháp đặc biệt để tính toán Q1 và Q3 là hợp quy.

Như thường lệ, bài viết Wikipedia có một bản tóm tắt hợp lý: https://en.m.wikipedia.org/wiki/Quartile Văn bản Larson và Farber, giống như hầu hết các văn bản thống kê cơ bản, sử dụng những gì được mô tả trong bài viết Wikipedia là " Phương pháp 1. " Nếu tôi làm theo các mô tả ở trên, r sử dụng "Phương pháp 3". Bạn sẽ phải tự quyết định cái nào phù hợp với kinh điển trong lĩnh vực của riêng bạn.


Bạn làm điểm tốt (+1). Nhưng do các tài liệu tham khảo cho "Phương pháp 1" là máy tính TI-83 và Excel (không có độ tin cậy đã được biết đến), nên phương pháp này bị sai lệch một cách rõ ràng và không khó để tính toán hơn bản lề của Tukey. có vẻ khó để biện minh hoặc đề nghị sử dụng nó.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.