Làm thế nào để tính khoảng tin cậy cho các tỷ lệ?


12

Hãy xem xét một thử nghiệm đưa ra tỷ lệ Xi trong khoảng từ 0 đến 1. Làm thế nào để đạt được tỷ lệ này không phù hợp trong bối cảnh này. Nó đã được xây dựng trong phiên bản trước của câu hỏi này , nhưng đã bị xóa cho rõ ràng sau một cuộc thảo luận về meta .

Thí nghiệm này được lặp lại n lần, trong khi n nhỏ (khoảng 3-10). Các Xi được giả định là độc lập và phân phối giống nhau. Từ những điều này, chúng tôi ước tính giá trị trung bình bằng cách tính trung bình X¯ , nhưng làm thế nào để tính khoảng tin cậy tương ứng [U,V] ?

Khi sử dụng phương pháp tiêu chuẩn để tính khoảng tin cậy, V đôi khi lớn hơn 1. Tuy nhiên, trực giác của tôi là khoảng tin cậy chính xác ...

  1. ... nên nằm trong phạm vi 0 và 1
  2. ... nên nhỏ hơn khi tăng n
  3. ... đại khái là theo thứ tự được tính toán bằng cách sử dụng phương pháp tiêu chuẩn
  4. ... được tính theo phương pháp toán học

Đây không phải là những yêu cầu tuyệt đối, nhưng ít nhất tôi muốn hiểu tại sao trực giác của tôi sai.

Tính toán dựa trên câu trả lời hiện có

Sau đây, các khoảng tin cậy do các câu trả lời hiện có được so sánh với .{Xi}={0.985,0.986,0.935,0.890,0.999}

Phương pháp tiếp cận tiêu chuẩn (còn gọi là "Toán học")

, σ 2 = 0,0204 , do đó khoảng tin cậy 99% là [ 0,865 , 1,053 ] . Điều này mâu thuẫn với trực giác 1.X¯=0.959σ2=0.0204[0.865,1.053]

Cắt xén (được đề xuất bởi @soakley trong các bình luận)

Chỉ cần sử dụng phương pháp tiêu chuẩn sau đó cung cấp là kết quả rất dễ thực hiện. Nhưng chúng ta có được phép làm điều đó không? Tôi chưa tin rằng ranh giới dưới chỉ không đổi (-> 4.)[0.865,1.000]

Mô hình hồi quy logistic (được đề xuất bởi @Rose Hartman)

Dữ liệu được chuyển đổi: Kết quả là [{4.18,4.25,2.09,2.66,6.90} , chuyển đổi lại kết quả trong [ 0,543 , 0,999 ] . Rõ ràng, 6,90 là một ngoại lệ đối với dữ liệu được chuyển đổi trong khi 0,99 không dành cho dữ liệu chưa được xử lý, dẫn đến khoảng tin cậy làrấtlớn. (-> 3.)[0.173,7.87][0.543,0.999]

Khoảng tin cậy tỷ lệ nhị thức (được đề xuất bởi @Tim)

Cách tiếp cận có vẻ khá tốt, nhưng tiếc là nó không phù hợp với thí nghiệm. Chỉ cần kết hợp các kết quả và diễn giải nó như một thử nghiệm Bernoulli lặp đi lặp lại lớn như được đề xuất bởi @ZahavaKor sẽ cho kết quả như sau:

trên tổng số 5 1000 . Cho ăn này vào Adj. Máy tính Wald cho985+986+890+935+999=479551000 . Đây dường như không phải thực tế, bởi vì không phải là một đơn X i là bên trong khoảng thời gian đó! (-> 3.)[0.9511,0.9657]Xi

Bootstrapping (được đề xuất bởi @soakley)

Với ta có 3125 hoán vị có thể. Lấy 3093n=5có nghĩa là trung bình của hoán vị, chúng ta nhận được[0,91,0,99]. Ngoại hình khôngxấu, mặc dù tôi mong chờ một khoảng lớn hơn (-> 3.). Tuy nhiên, mỗi công trình không bao giờ lớn hơn[min(Xi),max(X30933125=0.99[0.91,0.99] . Do đó, đối với một mẫu nhỏ, nó sẽ phát triển hơn là co lại để tăng n (-> 2.). Đây là ít nhất những gì xảy ra với các mẫu được đưa ra ở trên.[min(Xi),max(Xi)]n


Bạn đúng trong cách tiếp cận thứ hai của bạn. Tôi không chắc chắn về điều đầu tiên - nó không được nêu rõ trong các điều khoản thống kê. Theo tôi biết, độ tái lập có nghĩa là cùng một thí nghiệm được thực hiện bởi một nhà nghiên cứu khác và họ nhận được kết quả tương tự. Bạn cần xác định mục tiêu của mình rõ ràng hơn, tốt nhất là theo giả thuyết thống kê liên quan đến tham số mà bạn đang cố gắng ước tính. Theo tôi, chỉ sử dụng thuật ngữ "tái sản xuất" là quá mơ hồ.
Zahava Kor

Bạn nói đúng, độ lặp lại là thuật ngữ chính xác và không thể lặp lại. Tôi sẽ cố gắng xây dựng một định nghĩa trong thuật ngữ thống kê.
koalo

@ZahavaKor Tôi đã xóa ví dụ chưa được xác định rõ về độ lặp lại và chỉ định ứng dụng thực tế của mình với hy vọng rằng nó làm rõ vấn đề của tôi và không nhầm lẫn.
koalo

Nếu bạn thực sự lấy các mẫu có kích thước 1000, thì bạn đã không áp dụng chính xác phương pháp lấy mẫu lại. Nhưng với nhiều dữ liệu đó, bạn không cần phải lấy mẫu lại và sẽ nhận được kết quả tốt (nghĩa là khoảng tin cậy hẹp) với cách tiếp cận nhị thức tiêu chuẩn, như bạn đã thấy ở trên. Chỉ vì các điểm dữ liệu riêng lẻ của bạn không nằm trong khoảng kết quả không có nghĩa là khoảng đó không chính xác.
soakley

1
Vâng, hãy nghĩ về điều này. Bạn lấy mẫu 10 bài và nhận được 9 thành công. Tôi lấy mẫu 1000 và nhận được 900 thành công. Ai sẽ có ước tính chính xác hơn về giá trị trung bình? Hãy thử sử dụng công thức được Tim tham chiếu nếu chưa có trực giác. Vì vậy, trong ví dụ cuối cùng trong câu hỏi của bạn, cỡ mẫu không phải là 5, nó là 5000!
soakley

Câu trả lời:


6

Trước tiên, để làm rõ, những gì bạn đang giải quyết không hoàn toàn là phân phối nhị thức, như câu hỏi của bạn cho thấy (bạn gọi nó là một thử nghiệm Bernoulli). Phân phối nhị thức là rời rạc --- kết quả là thành công hoặc thất bại. Kết quả của bạn là một tỷ lệ mỗi khi bạn chạy thử nghiệm , không phải là một tập hợp thành công và thất bại mà sau đó bạn tính một tỷ lệ tóm tắt. Do đó, các phương pháp tính khoảng tin cậy tỷ lệ nhị thức sẽ loại bỏ rất nhiều thông tin của bạn. Nhưng bạn vẫn đúng rằng việc xử lý vấn đề này như thể nó được phân phối bình thường vì bạn có thể nhận được một CI vượt quá phạm vi có thể của biến.

Tôi khuyên bạn nên suy nghĩ về điều này về mặt hồi quy logistic. Chạy mô hình hồi quy logistic với biến tỷ lệ của bạn là kết quả và không có dự đoán. Việc chặn và CI của nó sẽ cung cấp cho bạn những gì bạn cần trong các bản ghi, và sau đó bạn có thể chuyển đổi nó trở lại tỷ lệ. Bạn cũng có thể tự mình thực hiện chuyển đổi logistic, tính toán CI và sau đó chuyển đổi trở lại quy mô ban đầu. Con trăn của tôi rất tệ, nhưng đây là cách bạn có thể làm điều đó trong R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

biểu đồ dữ liệu thô

data_logits <- log(data/(1-data)) 
hist(data_logits)

biểu đồ của dữ liệu chuyển đổi logit

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Dưới đây là giới hạn dưới và trên của CI 99% cho các dữ liệu này:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

Nghe có vẻ như là một cách tiếp cận tốt, tuy nhiên kết quả không như tôi mong đợi bằng trực giác: Data_logits cho 0,99,0,94,0,94 là 4,59,2,75,2,75, cho khoảng tin cậy là [-2,73,9,47]. Chuyển đổi trở lại này mang lại [0,061,0.999] - lớn hơn nhiều so với tôi mong đợi.
koalo

1
Đối với chỉ ba quan sát, bạn nên mong đợi một khoảng tin cậy rất lớn. Từ biểu đồ của bạn, có vẻ như bạn có nhiều hơn ba quan sát --- Tôi giả sử ví dụ của bạn với 0,99,0,94,0,94 chỉ là để minh họa. Nếu cỡ mẫu thực tế của bạn là ba, tôi không khuyên bạn nên tính khoảng tin cậy ở tất cả (hoặc phương tiện, cho vấn đề đó).
Rose Hartman

Biểu đồ trên xuất phát từ kịch bản python để minh họa vấn đề của tôi. Tôi không thể có được nhiều phép đo từ thí nghiệm trong thế giới thực. Ít nhất là không cho mọi sự kết hợp của các tham số. Tôi đồng ý rằng 3 có thể quá nhỏ và có thể khoảng 10 sẽ có thể trong đánh giá cuối cùng, nhưng chắc chắn không nhiều hơn nữa. Vậy tôi nên làm gì về điều đó để chứng minh rằng tôi không chỉ may mắn có được một phép đo duy nhất, mà việc lặp lại thí nghiệm không cho kết quả hoàn toàn khác nhau?
koalo

@RoseHartman Đó là một mô tả rõ ràng tốt đẹp nhưng cũng thật tuyệt khi thấy phương pháp của bạn được áp dụng cho mẫu dữ liệu (n = 5) trong câu hỏi.
Thủ tướng.

@scitamehtam Tôi đã viết câu trả lời của mình trước khi koalo cung cấp dữ liệu mẫu và làm rõ rằng cỡ mẫu sẽ là 10 hoặc ít hơn các quan sát. koalo đã cập nhật câu hỏi ban đầu để bao gồm các ví dụ hoạt động từ mỗi phương thức trả lời với dữ liệu n = 5, rất hữu ích.
Rose Hartman

3

Bạn có thể muốn thử lấy mẫu lại / bootstrapping. Hãy nhìn vào trường hợp đơn giản mà bạn đề cập.

Với 3 điểm dữ liệu là 0,99, 0,94 và 0,94, bạn thậm chí sẽ không thực hiện việc lấy mẫu lại vì bạn có thể liệt kê tất cả 27 hoán vị có thể, tìm giá trị trung bình trong từng trường hợp và sau đó sắp xếp phương tiện.

25/27=26/27=

n

Câu hỏi ở đây: Làm thế nào để chúng ta tạo khoảng tin cậy cho tham số của phép thử hoán vị? cung cấp thêm chi tiết, bao gồm một số mã R.


Như được viết trong một bình luận khác, n sẽ không "lớn hơn 3", nhưng có thể n = 10 là có thể nếu cần. Mặc dù cách tiếp cận này đảm bảo rằng khoảng tin cậy của tôi sẽ không vượt quá 1.0, nhưng dường như đánh giá thấp đáng kể khoảng tin cậy được đưa ra bởi các phương pháp khác. Trên thực tế, nó sẽ không bao giờ lớn hơn khoảng [min, max].
koalo

Bạn có thường nghĩ rằng giá trị trung bình sẽ nằm ngoài [min, max] không?
soakley

Có lẽ hiếm khi, nhưng điều đó cũng có nghĩa là nếu khoảng [min, max] đủ nhỏ để chứng minh hỗ trợ cho yêu cầu của tôi, tôi có thể quên khoảng tin cậy và chỉ cung cấp [min, max]? Theo kinh nghiệm của tôi, đối với các cỡ mẫu nhỏ, khoảng tin cậy là khá lớn so với [min, max].
koalo

2

Khoảng tin cậy nhị thức đã là chủ đề của các cuộc tranh luận thống kê trong một thời gian dài. Vấn đề của bạn xem xét tỷ lệ dưới 100%, nhưng nó thậm chí còn trở nên rắc rối hơn nếu chúng ta sử dụng 100%. Một cách sâu sắc để đặt câu hỏi là:

Với mặt trời đã mọc mà không thất bại mỗi ngày trong 2.000 năm qua, xác suất mà nó sẽ tăng vào ngày mai là gì?

p=1

Có một số phương pháp để tính toán các đuôi này. Tôi khuyên bạn nên kiểm tra Wikipedia cho toán học, hoặc nếu bạn chỉ muốn câu trả lời, hãy tìm kiếm một máy tính khoảng nhị thức như thế này (điều này cũng có một số giải thích thêm về toán học đằng sau nó).


Điều đó rất gần với những gì tôi đang tìm kiếm, nhưng các công thức dường như chỉ tính khoảng tin cậy cho kết quả của một lần thử nghiệm của tôi và không phải là khoảng tin cậy cho trung bình của một vài thử nghiệm.
koalo

Sẽ không có vấn đề gì nếu bạn có một lần chạy hoặc một vài lần chạy, miễn là mẫu số (100 gói trong ví dụ của bạn) vẫn giống nhau trong tất cả các lần chạy. Chạy 3 thí nghiệm 100 mỗi thí nghiệm về mặt toán học giống như chạy một thử nghiệm với 300 gói và bạn có thể sử dụng các công thức nhị thức, nhưng với n = 300 chứ không phải n = 100. Nếu mẫu số không bằng nhau, bạn cần tìm giá trị trung bình có trọng số (trọng số của n) và n mới sẽ là tổng của n.
Zahava Kor

@ZahavaKor Vì quá dài cho một nhận xét, tôi đã thêm một chỉnh sửa cho câu hỏi của mình. Tôi không nói nó sai, nhưng nó không phù hợp với sự hiểu biết hiện tại của tôi.
koalo

2

Một cách tiếp cận Bayes:

BB


p=n/mp
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.