Làm thế nào để kiểm tra trung vị của một dân số?


9

Tôi có một mẫu 250 đơn vị. Sự phân bố không đối xứng. Tôi muốn kiểm tra một giả thuyết rằng trung vị của dân số khác với 3,5, vì vậy tôi nghĩ thử nghiệm một mẫu sẽ phù hợp. Tôi biết rằng bài kiểm tra xếp hạng Wilcoxon là không phù hợp vì phân phối không đối xứng. Là một thử nghiệm dấu hiệu thích hợp để sử dụng? Nếu không ai có thể đề nghị bất kỳ thử nghiệm khác?


3
Bạn mất tôi ở dòng đầu tiên, vì nhiều lý do. (1) Một mẫu không thể có phân phối Gaussian (nhưng nó có thể có một phân phối). (2) Một đặc điểm của tất cả các phân phối Gaussian (và do đó gần đúng với chúng) là tính đối xứng . Bạn đã mâu thuẫn với chính mình. Bằng cách mô tả dữ liệu của bạn theo thuật ngữ của riêng bạn, thay vì biệt ngữ thống kê, bạn sẽ truyền đạt tốt hơn những gì bạn có. Bạn cũng có thể giải thích, theo cách đơn giản nhất có thể, những gì bạn thực sự muốn thực hiện với dữ liệu của mình? Loại thông tin nào là "bài kiểm tra mẫu dựa trên trung bình" dự định cung cấp cho bạn?
whuber

1
Trung vị của mẫu là bất cứ thứ gì; sẽ không cần phải kiểm tra điều đó Có lẽ bạn muốn kiểm tra xem trung vị của dân số (từ đó lấy được mẫu) có bằng không? Nếu vậy, điều quan trọng là phải biết giá trị của đã được phát triển như thế nào . Nó có phải là một bản tóm tắt của một số dữ liệu khác, có lẽ? Hoặc là một số con số được xác định trước, chẳng hạn như một tiêu chuẩn chất lượng? 3.53.53.5
whuber

1
Đó là một con số được xác định trước
LeonRupnik

2
" Phân phối không đối xứng nên tôi muốn kiểm tra một giả thuyết nếu trung bình của dân số khác với 3,5 ..." - Tại sao sự bất cân xứng trong một tác động mẫu lại giả thuyết nào thú vị?" Thử nghiệm dấu hiệu có phù hợp để sử dụng không? " - chắc chắn, nhưng (ít nhất là ở dạng ban đầu) nó phụ thuộc vào tính liên tục - bạn cần điều chỉnh nó nếu biến của bạn rời rạc (bạn không nói dữ liệu của bạn bao gồm những gì) .
Glen_b -Reinstate Monica

Dữ liệu liên tục
LeonRupnik

Câu trả lời:


8

Tóm tắc

Số lượng dữ liệu vượt quá có phân phối Binomial với xác suất p không xác định . Sử dụng điều này để tiến hành một thử nghiệm nhị thức của p = 1 / 2 so với thay thế p 1 / 2 .3.5pp=1/2p1/2

Phần còn lại của bài viết này giải thích mô hình cơ bản và chỉ ra cách thực hiện các phép tính. Nó cung cấp Rmã làm việc để thực hiện chúng. Một tài khoản mở rộng của lý thuyết kiểm tra giả thuyết cơ bản được cung cấp trong câu trả lời của tôi cho "ý nghĩa của giá trị p và giá trị t trong các kiểm tra thống kê là gì?" .

Mô hình thống kê

Giả sử các giá trị này là hợp lý đa dạng (có vài mối quan hệ tại ), sau đó dưới giả thuyết của bạn, bất kỳ giá trị lấy mẫu ngẫu nhiên có 1 / 2 = 50 % cơ hội vượt 3,5 (từ 3.5 được mô tả như là giá trị giữa dân số). Giả sử tất cả 250 giá trị đã được lấy mẫu ngẫu nhiên và độc lập, số lượng của chúng vượt quá 3,5 do đó sẽ có một nhị thức ( 250 , 1 / 2 ) phân phối. Hãy để chúng tôi gọi số này là "đếm", k .3.51/2=50%3.53.52503.5(250,1/2)k

Mặt khác, nếu dân số khác trung bình từ , các cơ hội của một giá trị lấy mẫu ngẫu nhiên vượt quá 3,5 sẽ khác với 1 / 2 . Đây là giả thuyết thay thế.3.53.51/2

Tìm một bài kiểm tra phù hợp

Cách tốt nhất để phân biệt tình huống null với các lựa chọn thay thế là xem xét các giá trị của rất có thể dưới null và ít có khả năng hơn trong các lựa chọn thay thế. Đây là những giá trị gần 1 / 2 của 250 , tương đương với 125 . Do đó, một khu vực quan trọng cho thử nghiệm của bạn bao gồm các giá trị tương đối xa từ 125 : gần 0 hoặc gần 250 . Nhưng họ phải cách 125 bao xa để tạo thành bằng chứng quan trọng cho thấy 3,5 không phải là trung bình dân số?k1/225012512502501253.5

Tùy thuộc vào tiêu chuẩn quan trọng của bạn: đây được gọi là kích thước thử nghiệm , thường được gọi là . Theo giả thuyết khống, cần có gần - nhưng không nhiều hơn - một cơ hội αk sẽ ở trong khu vực quan trọng.ααk

Thông thường, khi chúng tôi không có định kiến ​​về việc thay thế nào sẽ được áp dụng - trung bình lớn hơn hoặc nhỏ hơn - chúng tôi cố gắng xây dựng khu vực quan trọng để có một nửa cơ hội đó, α / 2 , k là thấp và khác một nửa, α / 2 , mà k cao. Bởi vì chúng ta biết phân phối k theo giả thuyết null, thông tin này đủ để xác định vùng quan trọng.3.5α/2kα/2kk

Về mặt kỹ thuật, có hai cách phổ biến để thực hiện phép tính: tính xác suất Binomial hoặc tính gần đúng chúng với phân phối chuẩn.

Tính toán với xác suất nhị thức

Sử dụng hàm phần trăm điểm (lượng tử). Trong R, ví dụ, cái này được gọi qbinomvà sẽ được gọi như

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

Đầu ra cho α=0.05

109 141

Điều đó có nghĩa là vùng tới hạn bao gồm tất cả các giá trị thấp của nằm giữa (và bao gồm) 0109 , cùng với tất cả các giá trị cao của k nằm giữa (và bao gồm) 141250 . Để kiểm tra, chúng tôi có thể yêu cầu tính toán cơ hội nằm trong khu vực đó khi null là đúng:k0109k141250Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

Đầu ra là , rất gần với - nhưng không lớn than-- alpha chính nó. Do vùng quan trọng phải kết thúc ở một số nguyên, nên thường không thể thực hiện kích thước thử nghiệm thực tế này chính xác bằng kích thước thử nghiệm danh nghĩa α , nhưng trong trường hợp này, hai giá trị thực sự rất gần nhau.0.0497αα

Tính toán với xấp xỉ bình thường

(250,1/2)250×1/2=125250×1/2×(11/2)=250/4. Chúng tôi sẽ thay thế phân phối Binomial bằng phân phối Bình thường. Phân phối chuẩn thông thường cóα/2=0,05/2xác suất nhỏ hơn-1,95996, như được tính bằnglệnh250/47.9α/2=0.05/21.95996R

qnorm(alpha/2)

0.05/2+1.95996k1.95996125125±7.9×1.96109.5,140.5

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

k109141p1/201α


Thử nghiệm này, vì nó không giả định về dân số (ngoại trừ việc nó không có nhiều xác suất tập trung ngay vào trung vị của nó), không mạnh mẽ như các thử nghiệm khác đưa ra các giả định cụ thể về dân số. Tuy nhiên, nếu thử nghiệm từ chối null, thì không cần phải lo lắng về việc thiếu sức mạnh. Mặt khác, bạn phải thực hiện một số đánh đổi tế nhị giữa những gì bạn sẵn sàng thừa nhận và những gì bạn có thể kết luận về dân số.


2
Vì đây thực tế là một ví dụ hoạt động về câu trả lời " ý nghĩa của giá trị p " khá trừu tượng của bạn , không chỉ trong việc đưa ra triết lý tương tự mà còn theo cách cấu trúc câu trả lời của bạn, tôi nghĩ bạn nên liên kết nó ("Một ví dụ về làm thế nào điều này được áp dụng trong thực tế có thể được tìm thấy trong câu trả lời của tôi cho ... ") trong phần kết luận câu trả lời của bạn ở đó.
Cá bạc

2
@Silver Cảm ơn bạn; điều đó thực sự đã vượt qua tâm trí của tôi. Tôi nghĩ rằng tôi có thể chờ đợi một chút đầu tiên. Trong số những điều khác, tôi sẽ không ngạc nhiên nếu một số thành viên cộng đồng dám nghĩ dám đào một chuỗi trùng lặp, mà tôi muốn kiểm tra kỹ hơn. Rốt cuộc, đây là tài liệu cơ bản - rất nhiều câu hỏi đã được hỏi về các bài kiểm tra nhị thức. Yêu cầu duy nhất mà cái này phải là mới là nó đã đến đây vì cần phải thử nghiệm trung vị - vì vậy nó không rõ ràng là một thử nghiệm nhị thức ngay từ đầu - và tuyên bố duy nhất câu trả lời của tôi phải xứng đáng đọc nằm trong nỗ lực của nó để giải thích từng bước.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.