Chúng tôi có thể nói 50% dữ liệu sẽ nằm trong phân vị thứ 25 đến 75 không?


8

Giả sử chúng ta có khung dữ liệu sau:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

Tôi hơi bối rối ở đây. Nếu chúng tôi nhận được mức ưu tiên thứ 75, 75% dữ liệu sẽ nằm dưới tỷ lệ phần trăm đó. Và nếu chúng ta có thể phân vị thứ 25, 25% dữ liệu sẽ ở dưới mức 25 đó. Bây giờ tôi đang nghĩ rằng 50% dữ liệu nên nằm trong khoảng từ 25 đến 50. Và phần trăm thứ 50 cũng cho tôi một giá trị khác. Đủ công bằng, có nghĩa là 50% dữ liệu nên dưới giá trị này. Nhưng câu hỏi của tôi là nếu cách tiếp cận của tôi đúng?

EDIT: Và chúng ta cũng có thể nói 98% dữ liệu sẽ nằm trong khoảng từ 1 đến 99%?


2
Có, nhưng bạn cũng có thể nói 50% dữ liệu sẽ không như vậy!
James

Câu trả lời:


30

Đúng.

  • 75% dữ liệu của bạn dưới phần trăm thứ 75.
  • 25% dữ liệu của bạn dưới phần trăm thứ 25.
  • Do đó, 50% (= 75% -25%) dữ liệu của bạn nằm giữa hai phần, tức là giữa phần trăm thứ 25 và 75.
  • Hoàn toàn tương tự, 98% dữ liệu của bạn nằm trong phân vị thứ 1 và 99.
  • Và nửa dưới của dữ liệu của bạn, một lần nữa 50%, nằm dưới phần trăm thứ 50.

Những con số này có thể không hoàn toàn chính xác, đặc biệt nếu bạn có số lượng dữ liệu thấp. Cũng lưu ý rằng có những quy ước khác nhau về cách quantiles và percentiles đang thực sự tính toán .


5
một lý do khác khiến số của bạn có thể bị tắt là khi bạn có nhiều mối quan hệ (các quan sát có cùng giá trị)
Maarten Buis

4
"Phần trăm được sử dụng phổ biến nhất" - bạn có nghĩa là loại nào theo typeđối số trong Rquantile() không? Hyndman & Fan khuyên dùng loại 7, đây cũng là mặc định. Thành thật mà nói, sự khác biệt là nhỏ. Hay bạn có nghĩa là bao nhiêu phần trăm thường được sử dụng? Điều đó sẽ phụ thuộc vào ứng dụng của bạn, chúng tôi không thể giúp bạn điều đó. Và tất nhiên, bạn càng nhận được nhiều dữ liệu, bạn sẽ càng chính xác. Mức độ chính xác nào là đủ sẽ phụ thuộc vào dữ liệu và ứng dụng của bạn.
Stephan Kolassa

2
Mức độ bạn cần sẽ phụ thuộc vào những gì bạn sẽ sử dụng phân tích của bạn cho.
Stephan Kolassa

2
"Không hoàn toàn chính xác, đặc biệt nếu bạn có số lượng dữ liệu thấp." - có thể đáng làm rõ điều này vì có hai yếu tố tôi có thể thấy khi chơi: (1) cỡ mẫu có thể không chia hết cho 4 hoặc 100 hoặc bất cứ điều gì cần thiết cho lượng tử trong câu hỏi; (2) các điểm dữ liệu có thể không phải là duy nhất (ví dụ: đối với dữ liệu trên toàn bộ số, tỷ lệ 1 đến 5, bạn có thể mong đợi nhiều giá trị lặp lại; các tứ phân trong trường hợp đó có thể hành xử rất tệ đối với các thuộc tính như "50% dữ liệu nằm trên trung bình "hoặc" giữa Q1 và Q3 "và phần trăm thường lãng phí thời gian)
Silverfish

1
@StephanKolassa, có vẻ như Hyndman & Fan đã giới thiệu loại 8. (Điều này cũng được đề cập đến ?quantile.)
Axeman

2

Lý tưởng nhất là có

Phần trăm thường được hiểu theo cách phân phối bình thường (vì tính quy phạm thường là giả định cơ bản, đôi khi không được nêu ra khi tính toán bất kỳ loại biện pháp thống kê cơ bản nào). Việc phân phối không phải là bình thường, tuy nhiên.

Theo trang web này ...

X= =μ+Zσ

Vì vậy, nếu chúng ta giả định tính quy tắc, chúng ta có thể dễ dàng tính toán bất kỳ tỷ lệ phần trăm nào chúng ta đang tìm kiếm. Tuy nhiên, phần trăm không yêu cầu giả định phân phối và bị ràng buộc với dữ liệu mà chúng được tính toán. Điều này có nghĩa là phần trăm có thể cung cấp điểm chuẩn có ý nghĩa cho cả phân phối bình thường và không bình thường. Bạn cũng có thể sử dụng phân vị phần trăm trong một diễn giải xác suất, tất nhiên dựa trên các phép đo bạn hiện có, có thể là các chỉ số tốt hoặc xấu của phân phối cơ bản thực sự.

Theo trang web này ...

P10P90p<P10p<P90pP10-P90


10
Thành thật mà nói, tôi không nghĩ rằng sự nhấn mạnh của bạn vào phân phối bình thường là hữu ích ở đây. OP chỉ quan tâm đến phần trăm theo kinh nghiệm.
Stephan Kolassa

Đồng ý với @StephanKolassa, đặc biệt vì dữ liệu ví dụ của OP không bình thường.
Hạt nhân Wang
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.