Liệu giá trị duy nhất này phù hợp với phân phối đó?


10

đây cảm thấy như một câu hỏi rất ngây thơ nhưng tôi gặp khó khăn khi xem câu trả lời.

Tôi có một bộ 30 giá trị. Độc lập tôi đã đạt được một giá trị thứ 31. Giả thuyết Null là giá trị thứ 31 là một phần của cùng một phân phối. Thay thế là khác nhau của nó. Tôi muốn một số loại giá trị p hoặc khả năng đo lường.

Một số suy nghĩ tôi đã có:

  • Điều này tương tự với việc muốn thực hiện kiểm tra t hai mẫu - ngoại trừ mẫu thứ hai tôi chỉ có một giá trị duy nhất và 30 giá trị không nhất thiết phải được phân phối.
  • Nếu thay vì 30 phép đo tôi có 10000 phép đo, thứ hạng của phép đo đơn có thể cung cấp một số thông tin hữu ích.

Làm thế nào tôi có thể tính toán khả năng này hoặc giá trị p?

Cảm ơn! Yannick


4
Bạn đang yêu cầu một khoảng dự đoán . Suy nghĩ thứ hai của bạn dẫn đến các khoảng dự đoán không tham số (mà tôi tin rằng chưa được đề cập trên trang web này trước đây).
whuber

Bạn có thể nói gì khác về dân số của bạn? Có phải tất cả các giá trị tích cực? Bạn có mong đợi nó đối xứng? Không chính thống?
soakley

Cảm ơn và xin lỗi tôi nên cung cấp thêm thông tin. Chúng tôi đang xem xét các khoảng dự đoán. Về cơ bản chúng ta có độ dài của một dự đoán gen đầu mối. Và độ dài của các gen tương tự được tìm thấy trong cơ sở dữ liệu. Vì vậy, tất cả các số là số nguyên dương. Trong một trường hợp dễ dàng, sự phân bố độ dài là không chính thống. Trong thực tế, họ thường không có; ở giai đoạn này chúng ta có thể cho rằng chúng là như vậy. Một số lô phân phối được hiển thị ở đây: github.com/monicadragan/gene_prediction/tree/master/ chủ
Yannick Wurm

Tôi không tin rằng chúng tôi muốn có một "khoảng dự đoán" Chúng tôi không muốn dự đoán ... và chúng tôi không muốn một khoảng ...?
Yannick Wurm

1
Đừng diễn giải quá nhiều thuật ngữ kỹ thuật. Theo định nghĩa, "khoảng dự đoán" được xây dựng từ 30 giá trị theo cách phân phối chung giả định của tất cả 31 giá trị , khả năng giá trị thứ 31 nằm trong I bằng với một mục tiêu nhất định, chẳng hạn như 95%. Trên thực tế, nếu giá trị thứ 31 không nằm trong I , bạn có thể kết luận rằng (i) bạn không may mắn (chỉ có 5% cơ hội xảy ra trước khi bạn thu thập dữ liệu) hoặc nếu không (ii) thì thực tế không phải vậy trường hợp giá trị thứ 31 có phân phối mà bạn giả định đã làm: và đó là những gì bạn muốn kiểm tra. Tôi3031TôiTôi
whuber

Câu trả lời:


7

Trong trường hợp không chính thống, bất đẳng thức Vysochanskij-Petunin có thể cho bạn một khoảng dự đoán sơ bộ. Đây là trang wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

Sử dụng sẽ dẫn đến khoảng dự đoán xấp xỉ 95%.λ= =3

Vì vậy, bạn ước tính độ lệch trung bình và độ lệch chuẩn của dân số của bạn và chỉ sử dụng trung bình mẫu cộng hoặc trừ 3 giây làm khoảng của bạn.x¯3S

Có một vài vấn đề với phương pháp này. Bạn không thực sự biết độ lệch trung bình hoặc độ lệch chuẩn; bạn đang sử dụng ước tính. Và nói chung, bạn sẽ không có các bản phân phối không chính thống, nghĩa là bạn sẽ phải sử dụng các phiên bản chuyên biệt của bất bình đẳng của Ch Quashev. Nhưng ít nhất bạn có một điểm khởi đầu.

[x(Tôi),x(j)]Xj-Tôin+1.X[x(1),x(30)].

[x¯-λ(1+1n)1/2S , x¯+λ(1+1n)1/2S],

n= =30,λ= =3.2


Đây dường như là một ứng dụng không chính xác của bất đẳng thức: nó giả sử giá trị trung bình và phương sai được biết , trong đó phương sai chỉ có thể được ước tính từ dữ liệu trong ngữ cảnh này. Sự khác biệt có thể rất lớn, đặc biệt là với các bộ dữ liệu nhỏ. Trong các nghiên cứu mô phỏng của tôi về các đề xuất tương tự với sự bất bình đẳng của Ch Quashev, tôi thấy hiệu suất rất kém. Theo trực giác, điều này tương tự như hiểu biết của Sinh viên rằng phân phối t nên được sử dụng thay vì phân phối Bình thường để xây dựng các TCTD; bởi vì một PI ở xa hơn "ngoài kia" ở đuôi, sự khác biệt được phóng to.
whuber

2
2/316,456,45

0

Một số suy nghĩ tôi đã có:

Điều này tương tự với việc muốn thực hiện kiểm tra t hai mẫu - ngoại trừ mẫu thứ hai tôi chỉ có một giá trị duy nhất và 30 giá trị không nhất thiết phải được phân phối.

Chính xác. Ý tưởng này hơi giống một bài kiểm tra t với một giá trị duy nhất. Vì phân phối không được biết và tính quy phạm chỉ với 30 điểm dữ liệu có thể hơi khó nuốt, nên điều này đòi hỏi một số loại thử nghiệm không tham số.

Nếu thay vì 30 phép đo tôi có 10000 phép đo, thứ hạng của phép đo đơn có thể cung cấp một số thông tin hữu ích.

Ngay cả với 30 phép đo, thứ hạng có thể là thông tin.

Như @whuber đã chỉ ra, bạn muốn một số loại khoảng dự đoán. Đối với trường hợp không tham số, về cơ bản, những gì bạn đang hỏi là như sau: xác suất mà một điểm dữ liệu nhất định có thể có là do thứ hạng mà chúng tôi quan sát được cho phép đo thứ 31 của bạn là gì?

Điều này có thể được giải quyết thông qua một bài kiểm tra hoán vị đơn giản. Đây là một ví dụ với 15 giá trị và một cuốn tiểu thuyết (quan sát thứ 16) thực sự lớn hơn bất kỳ giá trị nào trước đây:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Chúng tôi thực hiện N hoán vị, trong đó thứ tự của các phần tử trong danh sách được xáo trộn, sau đó đặt câu hỏi: thứ hạng cho giá trị của phần tử đầu tiên trong danh sách (xáo trộn) là gì?

Việc thực hiện N = 1.000 hoán vị cho chúng ta 608 trường hợp trong đó thứ hạng của phần tử đầu tiên trong danh sách bằng hoặc tốt hơn với thứ hạng của giá trị mới (thực sự bằng nhau, vì giá trị mới là giá trị tốt nhất). Chạy lại mô phỏng cho 1.000 hoán vị, chúng ta nhận được 658 trường hợp như vậy, sau đó là 663 ...

Nếu chúng tôi thực hiện N = 1.000.000 hoán vị, chúng tôi thu được 62825 trường hợp trong đó thứ hạng của phần tử đầu tiên trong danh sách bằng hoặc tốt hơn với thứ hạng của giá trị mới (mô phỏng tiếp theo đưa ra 63071 trường hợp, sau đó là 63040 ...). Nếu lấy tỷ lệ giữa các trường hợp điều kiện được thỏa mãn và tổng số hoán vị, chúng ta sẽ nhận được các số như 0,062825, 0,062871, 0,06284 ...

Bạn có thể thấy các giá trị này hội tụ theo hướng 1/16 = 0,0625 (6,25%), như @whuber lưu ý, là xác suất mà một giá trị nhất định (trong số 16) được rút ra ngẫu nhiên có thứ hạng tốt nhất có thể trong số chúng.

Đối với tập dữ liệu mới, trong đó giá trị mới là giá trị tốt thứ hai (tức là xếp hạng 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

chúng ta nhận được (với N = 1.000.000 hoán vị): 125235, 124883 ... các trường hợp thuận lợi, một lần nữa, gần đúng xác suất mà một giá trị nhất định (trong số 16) được rút ngẫu nhiên có thứ hạng tốt nhất có thể có trong số chúng: 2/16 = 0,125 (12,5%).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.