Cần thuật toán để tính toán khả năng tương đối rằng dữ liệu được lấy mẫu từ phân phối chuẩn so với bình thường


13

Giả sử bạn có một tập hợp các giá trị và bạn muốn biết liệu có nhiều khả năng chúng được lấy mẫu từ phân phối Gaussian (bình thường) hoặc được lấy mẫu từ phân phối logic không?

Tất nhiên, lý tưởng nhất là bạn biết điều gì đó về dân số hoặc về nguồn gốc của lỗi thử nghiệm, vì vậy sẽ có thêm thông tin hữu ích để trả lời câu hỏi. Nhưng ở đây, giả sử chúng ta chỉ có một bộ số và không có thông tin nào khác. Cái nào có khả năng hơn: lấy mẫu từ Gaussian hoặc lấy mẫu từ phân phối logic? Nhiều khả năng hơn? Điều tôi hy vọng là một thuật toán để chọn giữa hai mô hình và hy vọng định lượng khả năng tương đối của từng mô hình.


1
Nó có thể là một bài tập thú vị để thử và mô tả sự phân phối trên các bản phân phối trong tự nhiên / văn học xuất bản. Sau đó, một lần nữa - nó sẽ không bao giờ là một bài tập thú vị. Đối với một điều trị nghiêm trọng, bạn có thể tìm kiếm một lý thuyết biện minh cho sự lựa chọn của bạn, hoặc cung cấp đủ dữ liệu - trực quan hóa và kiểm tra mức độ phù hợp của từng phân phối ứng viên.
JohnRos

3
Nếu đó là vấn đề khái quát hóa từ kinh nghiệm, tôi sẽ nói rằng các phân phối sai lệch tích cực là loại phổ biến nhất, đặc biệt đối với các biến trả lời là mối quan tâm trung tâm và lognormal phổ biến hơn so với thông thường. Một tập năm 1962 Nhà khoa học suy đoán được chỉnh sửa bởi nhà thống kê nổi tiếng IJ Good bao gồm một đoạn ẩn danh "Quy tắc làm việc của Bloggins", chứa lời khẳng định "Phân phối bình thường của nhật ký là bình thường hơn bình thường". (Một số quy tắc khác được thống kê mạnh mẽ.)
Nick Cox

Tôi dường như giải thích câu hỏi của bạn khác với JohnRos và lo lắng. Đối với tôi, câu hỏi của bạn nghe giống như câu hỏi về lựa chọn mô hình đơn giản , đó là vấn đề tính toán , trong đó là phân phối bình thường hoặc log-normal và là dữ liệu của bạn. Nếu lựa chọn mô hình không phải là những gì bạn đang theo đuổi, bạn có thể làm rõ? M DP(MD)MD
Lucas

@lucas Tôi nghĩ cách giải thích của bạn không khác mấy so với tôi. Trong cả hai trường hợp, bạn cần phải làm giả định apriori .
lo lắng nhất

2
Tại sao không chỉ tính tỷ lệ khả năng tổng quát & cảnh báo người dùng khi nó ủng hộ log-normal?
Scortchi - Phục hồi Monica

Câu trả lời:


7

Bạn có thể dự đoán tốt nhất về loại phân phối bằng cách khớp từng phân phối (bình thường hoặc bất thường) với dữ liệu theo khả năng tối đa, sau đó so sánh khả năng đăng nhập theo từng mô hình - mô hình có khả năng đăng nhập cao nhất là phù hợp nhất. Ví dụ: trong R:

# log likelihood of the data given the parameters (par) for 
# a normal or lognormal distribution
logl <- function(par, x, lognorm=F) {
    if(par[2]<0) { return(-Inf) }
    ifelse(lognorm,
    sum(dlnorm(x,par[1],par[2],log=T)),
    sum(dnorm(x,par[1],par[2],log=T))
    )
}

# estimate parameters of distribution of x by ML 
ml <- function(par, x, ...) {
    optim(par, logl, control=list(fnscale=-1), x=x, ...)
}

# best guess for distribution-type
# use mean,sd of x for starting parameters in ML fit of normal
# use mean,sd of log(x) for starting parameters in ML fit of lognormal
# return name of distribution type with highest log ML
best <- function(x) {
    logl_norm <- ml(c(mean(x), sd(x)), x)$value
        logl_lognorm <- ml(c(mean(log(x)), sd(log(x))), x, lognorm=T)$value
    c("Normal","Lognormal")[which.max(c(logl_norm, logl_lognorm))]
}

Bây giờ tạo số từ phân phối bình thường và phù hợp với phân phối bình thường theo ML:

set.seed(1)
x = rnorm(100, 10, 2)
ml(c(10,2), x)

Sản xuất:

$par
[1] 10.218083  1.787379

$value
[1] -199.9697
...

So sánh khả năng đăng nhập cho ML phù hợp với phân phối bình thường và lognatural:

ml(c(10,2), x)$value # -199.9697
    ml(c(2,0.2), x, lognorm=T)$value # -203.1891
best(x) # Normal

Hãy thử với một bản phân phối hợp lý:

best(rlnorm(100, 2.6, 0.2)) # lognormal

Bài tập sẽ không hoàn hảo, tùy thuộc vào n, trung bình và sd:

> table(replicate(1000, best(rnorm(500, 10, 2))))

Lognormal    Normal 
        6       994 
> table(replicate(1000, best(rlnorm(500, 2.6, 0.2))))

Lognormal    Normal 
      999         1 

1
Bạn không cần phải tìm tham số ước tính khả năng tối đa bằng số cho mức bình thường hoặc thông thường log (mặc dù nó cho thấy cách bạn khái quát hóa ý tưởng để so sánh các phân phối khác). Ngoài ra, cách tiếp cận rất hợp lý.
Scortchi - Phục hồi Monica

Tôi hầu như không sử dụng R hoặc khái niệm về khả năng tối đa, vì vậy đây là một câu hỏi cơ bản. Tôi biết chúng ta không thể so sánh AIC (hoặc BIC) với việc phân phối bình thường cho dữ liệu so với nhật ký của dữ liệu, vì AIC hoặc BIC sẽ không thể so sánh được. Người ta cần điều chỉnh hai mô hình cho một bộ dữ liệu (không có biến đổi; không có loại trừ ngoại lệ, v.v.) và việc chuyển đổi dữ liệu sẽ thay đổi AIC hoặc BIC bất kể làm giả so sánh. Còn ML thì sao? Sự so sánh này có hợp pháp không?
Harvey Motulsky

Chúng tôi tìm thấy các phân phối bình thường và logic bất thường phù hợp nhất với dữ liệu, sau đó tính xác suất quan sát dữ liệu giả định rằng chúng là từ các phân phối đó (khả năng hoặc p(X|\theta)). Chúng tôi không chuyển đổi dữ liệu. Chúng tôi in ra phân phối mà xác suất quan sát dữ liệu là cao nhất. Cách tiếp cận này là hợp pháp nhưng có nhược điểm là chúng tôi không suy ra xác suất của mô hình được cung cấp dữ liệu p(M|X), nghĩa là xác suất dữ liệu đó là từ phân phối bình thường so với lognatural (ví dụ: p (bình thường) = 0,1, p (logn normal) = 0,9) không giống như cách tiếp cận Bayes.
waferthin

1
@Harvey Đúng, nhưng không liên quan - bạn đã hỏi về việc khớp phân phối bình thường và phân phối thông thường cho cùng một dữ liệu, và đây là những gì whannymahoots đang trả lời. Bởi vì số lượng tham số miễn phí là như nhau cho cả hai mô hình, việc so sánh AIC hoặc BIC giảm so với khả năng đăng nhập.
Scortchi - Phục hồi Monica

@wannymahoots Bất kỳ sự hợp lý nào trước cách tiếp cận Bayes trong bối cảnh này - dựa vào việc ước tính xác suất tương đối mà người dùng phần mềm đang cố gắng để phù hợp với dữ liệu thông thường hoặc log-normal - sẽ không chính xác đến mức nó sẽ cho kết quả tương tự với cách tiếp cận chỉ dựa trên khả năng.
Scortchi - Phục hồi Monica

10

M{Normal,Log-normal}X={x1,...,xN}

P(MX)P(XM)P(M).

Phần khó khăn là có được khả năng cận biên ,

P(XM)=P(Xθ,M)P(θM)dθ.

p(θM)XY={logx1,...,logxNYX,

P(XM=Log-Normal)=P(YM=Normal)i|1xi|.

P(θM)P(σ2,μM=Normal)P(M)

Thí dụ:

P(μ,σ2M=Normal)m0=0,v0=20,a0=1,b0=100

nhập mô tả hình ảnh ở đây

Theo Murphy (2007) (Công thức 203), khả năng cận biên của phân phối bình thường sau đó được đưa ra bởi

P(XM=Normal)=|vN|12|v0|12b0a0bnaNΓ(aN)Γ(a0)1πN/22N

aN,bN,vNP(μ,σ2X,M=Normal)

vN=1/(v01+N),mN=(v01m0+ixi)/vN,aN=a0+N2,bN=b0+12(v01m02vN1mN2+ixi2).

Tôi sử dụng cùng một siêu âm cho phân phối log-normal,

P(XM=Log-normal)=P({logx1,...,logxN}M=Normal)i|1xi|.

0.1P(M=Log-normal)=0.1

nhập mô tả hình ảnh ở đây

hậu thế cư xử như thế này:

nhập mô tả hình ảnh ở đây

N

Khi thực hiện các phương trình, sẽ là một ý tưởng tốt để làm việc với mật độ log thay vì mật độ. Nhưng nếu không thì nó sẽ khá thẳng về phía trước. Đây là mã mà tôi đã sử dụng để tạo các ô:

https://gist.github.com/lucastheis/6094631


4

Có vẻ như bạn đang tìm kiếm một cái gì đó khá thực dụng để giúp các nhà phân tích có thể không phải là nhà thống kê chuyên nghiệp và cần một cái gì đó để thúc đẩy họ làm những gì nên là các kỹ thuật khám phá tiêu chuẩn như nhìn vào các ô qq, các ô mật độ, v.v.

Trong trường hợp đó, tại sao không chỉ đơn giản là thực hiện kiểm tra tính quy tắc (Shapiro-Wilk hoặc bất cứ điều gì) trên dữ liệu gốc và một trên dữ liệu chuyển đổi nhật ký và nếu giá trị p thứ hai cao hơn sẽ đưa cờ cho nhà phân tích xem xét sử dụng biến đổi nhật ký ? Như một phần thưởng, hãy đưa ra một đồ họa 2 x 2 của biểu đồ đường mật độ và biểu đồ qqnorm của dữ liệu thô và dữ liệu được chuyển đổi.

Điều này sẽ không trả lời về mặt kỹ thuật câu hỏi của bạn về khả năng tương đối nhưng tôi tự hỏi liệu đó có phải là tất cả những gì bạn cần không.


Tài giỏi. Có lẽ điều này là đủ, và tránh sự cần thiết phải giải thích các tính toán khả năng .... Cảm ơn.
Harvey Motulsky
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.