Bộ tứ trong Excel


10

Tôi quan tâm đến định nghĩa của phần tư thường được sử dụng khi bạn có số liệu thống kê cơ bản. Tôi có một cuốn sách loại Stat 101 và nó chỉ đưa ra một định nghĩa trực quan. "Khoảng một phần tư dữ liệu rơi vào hoặc dưới phần tư thứ nhất ..." Nhưng, nó đưa ra một ví dụ trong đó tính toán Q1, Q2 và Q3 cho bộ dữ liệu

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

Vì có 15 mẩu dữ liệu, nó chọn 15 là trung vị, Q2. Sau đó, nó chia dữ liệu còn lại thành hai nửa, 5 đến 14 và 16 đến 37. Mỗi dữ liệu này chứa 7 mẩu dữ liệu và họ tìm thấy trung vị của mỗi bộ này, 10 và 18, lần lượt là Q1 và Q3. Đây là cách tôi sẽ tự tính toán nó.

Tôi đã xem bài viết của Wikipedia và nó đưa ra 2 phương pháp. Một người đồng ý với điều trên và một người nói rằng bạn cũng có thể bao gồm số trung vị 15 trong cả hai bộ (nhưng bạn sẽ không bao gồm trung vị nếu đó là trung bình của hai số giữa trong trường hợp số điểm dữ liệu chẵn). Tất cả điều này có ý nghĩa với tôi.

Nhưng, sau đó tôi đã kiểm tra Excel để xem Excel tính toán nó như thế nào. Tôi đang sử dụng Excel 2010, có 3 chức năng khác nhau. Quartile đã có sẵn trong năm 2007 và các phiên bản trước. Có vẻ như họ muốn bạn ngừng sử dụng cái này vào năm 2010 nhưng nó vẫn có sẵn. Quartile.Inc là mới nhưng đồng ý chính xác với Quartile theo như tôi có thể nói. Và, có Quartile.Exc là tốt. Cả hai cuối cùng là mới trong năm 2010 tôi tin. Lần này, tôi chỉ thử sử dụng các số nguyên 1, 2, 3, ..., 10. Tôi hy vọng Excel sẽ cho trung bình là 5,5, Q1 của 3 và Q3 của 8. Phương pháp từ sổ thống kê. vì cả hai phương pháp trên Wikipedia sẽ đưa ra những câu trả lời này, vì trung vị là trung bình của hai số ở giữa. Excel cung cấp cho

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

Cả hai điều này đều không đồng ý với những gì tôi đã nói trước đây.

Các mô tả trong tệp trợ giúp cho Excel là:

Quartile.Inc - Trả về phần tư của tập dữ liệu, dựa trên các giá trị phần trăm từ 0..1, đã bao gồm.

Quartile.Exc - Trả về phần tư của tập dữ liệu, dựa trên các giá trị phần trăm từ 0..1, độc quyền.

Có ai có thể giúp tôi hiểu định nghĩa này Excel đang sử dụng không?


5
Một minh họa tuyệt vời khác về lý do tại sao không sử dụng Excel cho bất kỳ thống kê nào. :-)
Wayne

1
Bạn bè không cho phép bạn bè sử dụng Excel để thống kê. Buồn nhưng là sự thật
Chris Beeley

Câu trả lời:


11

Thông thường, thứ hạng (từ đến cho dữ liệu ) được chuyển đổi thành phần trăm thông qua công thứcr1nnp

p=100rαn+12α

đối với một số "vị trí âm mưu" được xác định trước trong khoảng từ đến , đã bao gồm. Giải cho về choα01rp

r=(n+12α)(p/100)+α.

Excel đã từng sử dụng cho các chức năng và chức năng của nóα=1PERCENTILEQUARTILE . Các tài liệu trực tuyến cho QUARTILE.INCQUARTILE.EXClà vô dụng, vì vậy chúng tôi phải thiết kế ngược lại những gì các chức năng này đang làm.

Ví dụ: với dữ liệu , chúng ta có và cho ba phần tư. Sử dụng trong công thức trước sẽ mang lại thứ hạng , và , sao chép kết quả cho .n = 10 p { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 =(1,2,3,4,5,6,7,8,9,10)n=10p{25,50,75}α=19(0.25)+1=3.259(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

Thay vào đó, nếu chúng ta đặt các thứ hạng tương ứng là , và , sao chép kết quả cho .11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25α=011(0.25)=2.7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

Thử nghiệm thêm về phần của bạn (tôi không có phiên bản Excel gần đây) có thể xác lập tính hợp lệ của dự đoán của tôi rằng hai phiên bản của hàm tứ phân vị này được xác định bởi hai giá trị (cực trị) này củaα .

Nhân tiện, các cấp bậc được chuyển đổi thành các giá trị dữ liệu bằng phương pháp nội suy tuyến tính. Quá trình này được giải thích và minh họa trong ghi chú khóa học của tôi tại Percentiles và EDF Plots - nhìn gần cuối trang đó. Ngoài ra còn có một liên kết đến một bảng tính Excel minh họa các tính toán.

Nếu bạn muốn triển khai hàm phân vị chung trong Excel , thì đây là macro VBA để thực hiện:

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

Nó chuyển đổi một phần trăm danh nghĩa (chẳng hạn như 25/100) thành phần trăm sẽ khiến PERCENTILEhàm của Excel trả về giá trị mong muốn. Nó được thiết kế để sử dụng trong các công thức tế bào, như trong =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5)).


Lưu ý rằng một khi bạn hiểu chính xác những gì Excel đang làm, bạn có thể sử dụng nó một cách hiệu quả cho công việc thống kê.
whuber

5
Nếu tôi có thể không đồng ý với nhận xét của bạn một cách hài hước: Excel có thể được sử dụng hiệu quả cho công việc thống kê, nếu bạn là một thuật sĩ thống kê có thể chứng minh từ các nguyên tắc đầu tiên những gì nên làm, thì hãy thiết kế ngược lại các phương pháp của Excel để xác định xem nó thực sự đang làm gì. Khi bạn tốt, hầu hết mọi công cụ sẽ làm. Mặc dù tôi cũng chỉ ra rằng trong chủ đề này, 100% các pháp sư tham gia vào cuộc thảo luận này cho đến nay không có quyền truy cập vào phiên bản Excel mới nhất, vì vậy không có khả năng thực sự sử dụng nó.
Wayne

Chạm vào ', @Wayne. (Nhưng một số người trong chúng ta vẫn sử dụng các phiên bản Excel cũ hơn :-).)
whuber

1
Whuber, cảm ơn vì đã chia sẻ giải pháp VBA. Điều này sẽ vô cùng hữu ích. Là người cần thực hiện Thống kê nhưng bị mắc kẹt với Excel là công cụ duy nhất có sẵn (vâng, tôi đã thử R, nhưng tôi không thể hiểu được về nó), tôi đánh giá cao các công cụ giúp uốn cong Excel theo nhu cầu của tôi.
DAV

4

Tôi thấy rằng Excel quartile.incđồng ý với bản gốc quartile, đồng ý với mặc định của R và các định nghĩa khác.

Với một gợi ý hữu ích từ whuber, tôi thấy rằng Excel quartile.excdường như đồng ý (trong trường hợp 1..10) với type=6định nghĩa về lượng tử của R :

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

Điều này rõ ràng làm cho câu trả lời cho câu hỏi của bạn: "Có, Minitab và SPSS làm."


Không R có chín định nghĩa về lượng tử? (+1 cho chỉnh sửa, btw)
whuber

@whuber: Không chú ý đến người đàn ông đằng sau bức màn! (Tôi sẽ chỉnh sửa câu trả lời của mình. Khi kiểm tra thêm, nó phù hợp với một trong những định nghĩa khác của R, rõ ràng là những gì Minitab và SPSS sử dụng. Cảm ơn!)
Wayne

2

Tôi nghĩ rằng hương vị của quartile chỉ là bỏ qua 5 và 37 (tối thiểu và tối đa trong dữ liệu gốc của bạn).

Trong Stata, cả phiên bản mặc định và phiên bản thay thế đều cung cấp cho bạn các giá trị quartile.exc với dữ liệu này.


Dự đoán này dường như không phù hợp với tài liệu khẳng định rằng max và min thực sự có thể được trả về QUARTILE.EXC.
whuber

Trong phiên bản Excel 2010 của tôi, QUARTILE.EXC (phạm vi ô, k) sẽ trả về #NUM! trừ khi k = {1,2,3}, tương ứng với các phần trăm thứ 25, 50 và 75 theo menu bật lên xuất hiện. QUARTILE ban đầu cũng sẽ chấp nhận 0 và 4 làm đối số thứ hai, tương ứng với min và max.
Dimitriy V. Masterov

1
Tài liệu ghi rõ "Nếu quart ≤ 0 hoặc nếu quart 4, QUARTILE.EXC trả về giá trị lỗi #NUM!." Điều đó có vẻ đúng. Câu lệnh thứ hai "MIN, MEDIAN và MAX trả về cùng giá trị như QUARTILE.EXC khi quart bằng 0 (không), 2 và 4, tương ứng" xuất hiện sai trừ khi tôi thiếu thứ gì đó. Thật là một mớ hỗn độn!
Dimitriy V. Masterov

+1 Cảm ơn bạn đã kiểm tra điều này, Dimitriy! Thật vậy, sự khác biệt duy nhất giữa dự đoán của tôi và của bạn (có hiệu quả biến thành và trừ từ mỗi cấp bậc) là công thức của tôi thực sự nên trả lại tối thiểu và tối đa cho 0 và 100 phần trăm, thay vì , vì vậy có vẻ như tính cách của bạn là tốt hơn (nhưng đặc tính của tôi cung cấp sự biện minh cho bạn). Tôi tự hỏi chức năng hiện tại của Excel là gì? :-)n - 1 1nn11#NUM!PERCENTILE
whuber

1
3 hương vị của phần trăm hành xử giống như phần tư đối với tôi. Đối với dữ liệu 5-37, PERCENTILE.EXC (phạm vi, k) cung cấp cho #NUM! cho k = {0,1}. Với k = 0,25, PERCENTILE.EXC cho 10. Nếu tôi vứt đi 5 và 37, nó cho 10,5, đồng ý với 2 cách khác.
Dimitriy V. Masterov

2

Rất nhiều công cụ chi tiết thú vị nhưng để trở lại câu hỏi ban đầu tôi không thấy rằng hai cách hơi khác nhau có thể không đưa ra chính xác cùng một câu trả lời thực sự quan trọng. Điểm dễ hiểu đầu tiên là điểm tại đó 25% các quan sát rơi vào hoặc thấp hơn nó. Tùy thuộc vào kích thước mẫu của bạn mà có thể hoặc không thể là một điểm chính xác trong dữ liệu. Vì vậy, nếu một điểm ở dưới và điểm tiếp theo ở trên, phần tư đầu tiên này không thực sự được xác định rõ và bất kỳ điểm nào ở giữa hai điểm này đều có thể phục vụ tốt như nhau. Điều này cũng đúng với trung vị khi kích thước mẫu là chẵn. Quy tắc chọn điểm giữa giữa các điểm dữ liệu bên dưới và bên trên. Nhưng không có gì thực sự nói rằng sự lựa chọn được đưa ra bởi quy tắc thực sự tốt hơn bất kỳ điểm nào khác.


+1. Tuy nhiên, tôi muốn đề xuất lý do này, mặc dù phù hợp với một số ứng dụng, có thể hơi hạn chế cho mục đích chung: một số lựa chọn về vị trí âm mưu ( giữa và , thường) cung cấp các giá trị tốt hơn một chút cho âm mưu xác suất, ví dụ. Điều này sẽ không liên quan đến các bộ tứ máy tính, như bạn lưu ý, nhưng nó sẽ liên quan đến việc tính toán các phần trăm cực đoan hơn. Tính toán phần trăm có liên quan mật thiết đến tính toán tứ phân (tôi chắc chắn đó là cùng một mã cơ bản) đến nỗi "công cụ chi tiết" này đáng để lưu tâm, IMHO. 1 / 3 1 / 2α1/31/2
whuber

0

Đối với những người bạn sử dụng Excel, có một sự phân tích khá tốt về các phương thức phiên bản khác nhau tại đây http://peltiertech.com/WordPress/comparison/


2
Sẽ tốt hơn nếu bạn có thể tóm tắt chúng trong câu trả lời của bạn. Trong khi liên kết có thể trả lời câu hỏi đôi khi họ hết hạn trong trường hợp câu trả lời của bạn sẽ không hữu ích cho độc giả trong tương lai.
Andy

0

trong excel 2016 tôi nhận thấy rằng người ta có thể có được các giá trị đúng của các phần tư nếu:

  • tập dữ liệu có số lượng mục nhập lẻ: sử dụng QUARTILE.EXC
  • tập dữ liệu có số mục nhập chẵn: trung bình sử dụng QUARTILE.EXC và QUARTILE.INC

1
Cho biết có bao nhiêu định nghĩa về lượng tử có bằng chứng trong một số câu trả lời khác, bạn có thể giải thích ý của bạn về các giá trị đúng không?
mdewey
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.