Số lượng hoán vị cần thiết cho giá trị p dựa trên hoán vị


8

Nếu tôi cần tính giá trị dựa trên hoán vị với mức ý nghĩa , tôi cần bao nhiêu hoán vị?pα

Từ bài viết "Kiểm tra hoán vị cho hiệu suất phân loại học tập" , trang 5:

Trong thực tế, giới hạn trên thường được sử dụng để xác định số lượng mẫu cần thiết để đạt được độ chính xác mong muốn của thử nghiệm.1/(2k)

... Trong đó là số lượng hoán vị.k

Làm cách nào để tính số lượng hoán vị cần thiết từ công thức này?

Câu trả lời:


12

Tôi thừa nhận, đoạn văn có thể gây nhầm lẫn.

Khi thực hiện kiểm tra hoán vị, bạn ước tính giá trị p. Vấn đề là, ước tính của giá trị p có lỗi chính nó được tính là . Nếu lỗi quá lớn, giá trị p không đáng tin cậy.p(1-p)k

Vì vậy, cần bao nhiêu hoán vị k để có được một ước tính đáng tin cậy?

Đầu tiên xác định lỗi tối đa được phép của bạn aka độ chính xác. Hãy coi đó là . Sau đó, giá trị p ước tính sẽ nằm trong khoảng (vì p xấp xỉ phân phối bình thường )P[p-3*P,p+3*P]

Sử dụng giới hạn trên

Đoạn trích dẫn của bài báo đề nghị sử dụng làm ước tính giới hạn trên của lỗi thay vì . Điều này tương ứng với giá trị p chưa biết là p = 0,5 (trong đó sai số là tối đa trong số tất cả các ps đối với k cố định).12kp(1-p)k

Vì vậy: Bạn muốn biết k nơi .12kP

<=>14P2k

Nhưng vì công thức được trích dẫn đại diện cho giới hạn trên, cách tiếp cận này rất thô sơ.

Sử dụng lỗi ở mức ý nghĩa

Một cách tiếp cận khác sử dụng mức ý nghĩa mong muốn là p để tính độ chính xác cần thiết. Điều này là chính xác, bởi vì lỗi của p ước tính là quan trọng hơn nếu chúng ta ở gần ngưỡng quyết định (là mức ý nghĩa).α

Trong trường hợp này ai muốn biết k nơi .α(1-α)kP

<=>(α(1-α))P2k

Lưu ý rằng nếu giá trị p không xác định thực sự lớn hơn , thì lỗi thực sự lớn hơn, vì vậy p trong không giữ nữa.α[p-3*P,p+3*P]

Kéo dài khoảng tin cậy

Cách tiếp cận này tương ứng với trung tâm của khoảng tin cậy nằm ở ngưỡng quyết định. Để buộc giới hạn trên của khoảng tin cậy của p ước tính nằm dưới ngưỡng quyết định (chính xác hơn), người ta cần ...

tôiα(1-α)kP

<=>(tôi)2(α(1-α))P2k

trong đó l tương ứng với (xem lại hình ảnh )

| l | confidence interval |
| 1 | ~68 % |
| 2 | ~95 % |
| 3 | ~99 % |

Ví dụ: Đặt P trước mong muốn là 0,005.

Sau đó, sử dụng giới hạn trên thô được .k> =10000

Sử dụng P ở và yêu cầu khoảng tin cậy 95% người ta nhận được .k > = 7600α= =0,05k> =7600

Với P = 0,01 tại và khoảng tin cậy 95% người ta nhận được k> = 396.α= =0,01

Cuối cùng : Tôi mạnh mẽ đề nghị đi sâu hơn vào mô phỏng Monte-Carlo. Các wikipedia cung cấp một sự khởi đầu.


Cảm ơn, tôi đã chứng minh điều này: epibiostat.ucsf.edu/biostat/sen/statgen/ mẹo và tôi đang cố gắng so sánh nó với phương pháp được viết bởi bạn. Sự khác biệt trong quan điểm của bạn là gì?
Sao Hải Vương

@Neptune Tôi đã cập nhật câu trả lời của mình để tạo liên kết. Phiên bản mở rộng hiện tương đương (bỏ qua một bên , đây là một IMHO đơn giản hóa không cần thiết). (1-α))
steffen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.