Tìm kiếm một phân phối, có lẽ không phổ biến, phù hợp với hai điểm dữ liệu và các ràng buộc chuyên gia?


8

Tôi đang cố gắng đưa ra phân phối trước cho phân tích tổng hợp Bayes.

Tôi có các thông tin sau về một biến ngẫu nhiên:

  1. Hai quan sát: 3.0, 3.6
  2. một nhà khoa học nghiên cứu về biến đã nói với tôi rằng và các giá trị cao tới 6 có xác suất khác không.P(X<2)=P(X>8)=0

Tôi đã sử dụng cách tiếp cận sau đây để tối ưu hóa (chế độ log-N = :eμσ2)

prior <- function(parms, x, alpha) {
  a <- abs(plnorm(x[1], parms[1], parms[2]) - (alpha/2))
  b <- abs(plnorm(x[2], parms[1], parms[2]) - (1-alpha/2))
  mode <- exp(parms[1] - parms[2]^2)
  c <- abs(mode-3.3)
  return(a + b + c)
}
v = nlm(prior,c(log(3.3),0.14),alpha=0.05,x=c(2.5,7.5))
x <- seq(1,10,0.1)
plot(x, dlnorm(x, v$estimate[1], v$estimate[2]))
abline(v=c(2.5,7.5), lty=2) #95%CI

văn bản thay thế

Trong hình, bạn có thể thấy phân phối mà điều này trả về, nhưng tôi muốn tìm một cái gì đó giống như các đường màu đỏ mà tôi đã vẽ.

Điều này cung cấp phân phối có hình dạng tương tự bằng cách sử dụng lognatural, gamma hoặc bình thường và kết quả là phân phối với và , nghĩa là:P ( X = 6 ) < 0,01P(X=5)<0.05P(X=6)<0.01

 plnorm(c(5,6), v$estimate[1],v$estimate[2])

Bất cứ ai có thể đề nghị thay thế? Tôi thích gắn bó với một phân phối duy nhất hơn là một hỗn hợp.

Cảm ơn!


1
Trong câu hỏi của bạn, bạn có và . Ý bạn là: và ?? P(X=2)=0P(X=8)=0P(X<2)=0P(X>8)=0
M. Tibbits

1
@David Sau khi đọc câu hỏi này nhiều lần, tôi vẫn không hiểu nó. Bạn có đang sử dụng hai quan sát và ý kiến ​​của nhà khoa học để ước tính trước cho phân tích Bayes không? Là trước của bạn sẽ chỉ dựa trên ý kiến ​​của nhà khoa học và sau đó bạn muốn cập nhật nó với các quan sát? Sự khác biệt giữa "không ngạc nhiên" và có xác suất bằng không là gì?
whuber

1
@David Tôi đánh giá cao sự quan tâm của bạn trong việc khơi gợi thông tin. Nhưng việc gán các giá trị cụ thể 0,05 và 0,01 cho các xác suất đó là đáng nghi ngờ. Đó không phải là lỗi của bạn; mọi thứ chỉ là như thế nào Chúng tôi không thể mong đợi mọi người xác định chính xác xác suất đó (đó là dữ liệu dành cho). Có lẽ bạn muốn đại diện cho những người có siêu nhân :-)?
whuber

1
@whuber Cảm ơn bạn đã theo dõi. Bây giờ tôi hiểu khái niệm về giải pháp entropy tối đa mà bạn đã đề xuất trước đây, mặc dù nó sẽ yêu cầu một số học hỏi trước khi tôi muốn áp dụng nó. Sự thay thế của bạn, tối đa hóa phương sai, âm thanh đủ phù hợp với mục tiêu của tôi và đơn giản để tôi thực hiện. Cảm ơn một lần nữa.
David LeBauer

1
@David Xin lưu ý rằng một vấn đề với tối đa hóa phương sai là giải pháp sẽ là một phân phối rời rạc. Tôi hy vọng nó tập trung 0,01 xác suất tại X = 8, 0,04 tại X = 6, 157/300 tại X = 2 và phần còn lại (32/75) tại X = 5. (Phương sai này bằng 2,59.)
whuber

Câu trả lời:


5

Nếu, đưa ra câu trả lời cho nhận xét của tôi ở trên, bạn muốn giới hạn phạm vi phân phối, tại sao không chỉ đơn giản phù hợp với phân phối Beta nơi bạn bán lại cho khoảng thời gian đơn vị? Nói cách khác, nếu bạn biết rằng tham số quan tâm phải nằm trong khoảng , thì tại sao không xác định . Trong đó lần đầu tiên tôi căn giữa khoảng bằng 0, chia cho chiều rộng để Y sẽ có phạm vi 1, sau đó thêm trở lại để phạm vi của Y là . (Bạn có thể nghĩ về một trong hai cách: trực tiếp từ hoặc từ[2,8]Y=X56+12=X26 [0,1][2,8][0,1][2,8][-112[0,1][2,8][0,1][2,8][12,12][0,1], nhưng tôi nghĩ rằng cái sau có thể dễ dàng hơn lúc đầu).

Sau đó, với hai điểm dữ liệu, bạn có thể phù hợp với một phiên bản beta với phiên bản beta thống nhất trước đó không?


2

Điều gì về bản phân phối Kumarawamy , có pdf sau:

f(x;a,b)=abxa1(1xa)b1
a>0b>00<x<1

2

Vì phân phối log-normal có hai tham số, bạn không thể điều chỉnh nó phù hợp với ba ràng buộc không phù hợp với nó. Với số lượng cực lớn là 2,5 và 7,5, chế độ là ~ 4 và bạn không thể làm gì nhiều với nó. Vì quy mô của các lỗi cho abnhỏ hơn nhiều so với c, nên một trong số chúng sẽ bị bỏ qua khá nhiều trong quá trình tối ưu hóa.

Để phù hợp hơn, bạn có thể chọn phân phối ba tham số, ví dụ: phân phối gamma tổng quát (được triển khai trong VGAMgói) hoặc thêm tham số thay đổi vào phân phối lognatural (hoặc gamma, ...).

Như một lưu ý cuối cùng, vì phân phối mà bạn đang tìm kiếm rõ ràng không đối xứng, trung bình của hai quan sát đã cho không phải là giá trị phù hợp cho chế độ. Tôi sẽ tối đa hóa tổng mật độ ở mức 3.0 và 3.6 trong khi duy trì lượng tử cực trị ở mức 2.5 và 7.5 - điều này là có thể nếu bạn có ba tham số.


1

Bạn cũng có thể thử phân phối hình tam giác. Để phù hợp với điều này, về cơ bản, bạn chỉ định giới hạn dưới (đây sẽ là X = 2), giới hạn trên (đây sẽ là X = 8) và giá trị "rất có thể". Trang wikepedia http://en.wikipedia.org/wiki/Triangular_distribution có thêm thông tin về bản phân phối này. Nếu không có nhiều niềm tin vào giá trị "rất có thể" (như có vẻ là, trước khi quan sát bất kỳ dữ liệu nào), có thể nên đặt phân phối trước không có thông tin vào đó, sau đó sử dụng hai dữ liệu điểm để ước tính giá trị này. Một điều tốt là ưu tiên của jeffrey, mà đối với vấn đề này sẽ là p (c) = 1 / (pi * sqrt ((c-2) * (c-8))), trong đó "c" là "giá trị rất có thể "(Phù hợp với ký hiệu wikipedia).

Đưa ra điều này trước, bạn có thể tìm ra phân phối sau của c phân tích hoặc thông qua mô phỏng. Hình thức phân tích của khả năng không đặc biệt tốt, do đó mô phỏng dường như hấp dẫn hơn. Ví dụ này đặc biệt phù hợp với lấy mẫu từ chối (xem trang wiki để biết mô tả chung về lấy mẫu từ chối), vì khả năng tối đa hóa là 1/3 ^ n bất kể giá trị của c, cung cấp "giới hạn trên". Vì vậy, bạn tạo ra một "ứng cử viên" từ trước của jeffrey (gọi nó là c_i), sau đó đánh giá khả năng tại ứng cử viên này L (x1, .., xn | c_i) và chia cho khả năng tối đa hóa, để đưa ra (3 ^ n ) * L (x1, .., xn | c_i). Sau đó, bạn tạo một biến ngẫu nhiên U (0,1) và nếu u nhỏ hơn (3 ^ n) * L (x1, .., xn | c_i), sau đó chấp nhận c_i làm giá trị được lấy mẫu sau, nếu không hãy bỏ đi c_i và bắt đầu lại. Lặp lại quy trình này cho đến khi bạn có đủ các mẫu được chấp nhận (100, 500, 1.000 hoặc nhiều hơn tùy thuộc vào mức độ chính xác mà bạn muốn). Sau đó, chỉ cần lấy trung bình mẫu của bất kỳ chức năng nào của c mà bạn quan tâm (khả năng quan sát mới là một ứng cử viên rõ ràng cho ứng dụng của bạn).

Một cách khác để chấp nhận từ chối là sử dụng giá trị của khả năng là trọng số (và không tạo u), sau đó tiến hành lấy trung bình có trọng số bằng cách sử dụng tất cả các ứng cử viên, thay vì trung bình không có trọng số với các ứng cử viên được chấp nhận

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.