Làm cách nào tôi có thể ước tính thời gian 50% của biến nhị thức sẽ chuyển đổi?


8

Tôi có các dữ liệu sau, đại diện cho trạng thái nhị phân của bốn đối tượng bốn lần, lưu ý rằng mỗi đối tượng chỉ có thể chuyển chứ không thể :1 00110

testdata <- data.frame(id = c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4),
                       day = c(1,1,1,1,8,8,8,8,16,16,16,16,24,24,24,24,32,32,32,32),
                       obs = c(0,0,0,0,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1))

Tôi có thể mô hình hóa nó với một hồi quy logistic:

testmodel <- glm(formula(obs~day, family=binomial), data=testdata)

> summary(testmodel)


Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.018890   0.148077  -0.128 0.899907    
day          0.032030   0.007555   4.240 0.000493 ***

Đầu tiên, làm thế nào tôi có thể tính đến các biện pháp lặp đi lặp lại trên cùng một cá nhân trong mô hình?

Thứ hai, làm thế nào tôi có thể ước tính, với sự không chắc chắn, ngày mà 1/2 đối tượng sẽ thực hiện chuyển đổi từ ?01


1
Có vẻ có một sự phụ thuộc mạnh mẽ vào những dữ liệu này: cụ thể là, có phải là trường hợp đó nếu obs = 1 cho đối tượng ngày t sau đó nhất thiết phải obs = 1 cho đối tượng i ngày s bất cứ khi nào s t ? Nếu điều này là như vậy, thì bạn thực sự chỉ có bốn giá trị dữ liệu - một giá trị cho mỗi đối tượng - và một trong số chúng được kiểm duyệt ở bên phải. itisst
whuber

@whuber bạn đúng về sự phụ thuộc (ít nhất là trong phân tích hiện tại trong năm); dữ liệu đại diện cho dù "vụ nổ chồi" có xảy ra trước ngày quan sát đối với mỗi bốn cây nhân bản hay không. Nhưng tôi không chắc ý của bạn về các giá trị dữ liệu được kiểm duyệt ở bên phải?
David LeBauer

1
Dưới đây là tóm tắt: chủ đề 2 được chuyển tiếp trong khoảng [1,8]; nghĩa là, 2 -> [1,8]. Ngoài ra 3 -> [8,16], 4 -> [16,24] và 1 -> [24, vô cùng]. Cái sau có nghĩa là môn 1 được quan sát trong 24 ngày mà không chuyển tiếp; đó là giá trị bị kiểm duyệt. Bạn có thể đóng khung này như một vấn đề phân tích sinh tồn và phân tích nó cho phù hợp. Ngẫu nhiên, sự phụ thuộc này có nghĩa là giá trị p trong hồi quy logistic thấp một cách sai lệch.
whuber

@whuber cảm ơn bạn về cái nhìn sâu sắc, nhưng điều này có nghĩa là cách tiếp cận của tôi nếu thiếu sót về cơ bản cho rằng tôi không quan tâm đến việc ước tính giá trị p? Ngoài ra, không có dữ liệu nào sẽ được kiểm duyệt đúng trong một vài tuần; Tôi chỉ đang phát triển phân tích trước khi bộ dữ liệu hoàn tất. Tôi đã thay đổi dữ liệu kiểm tra để không có đối tượng nào được kiểm duyệt đúng.
David LeBauer

3
@DWin, @David Đây không phải là tình huống đo lặp lại. Các định dạng dữ liệu chỉ làm cho nó trông như thế. Phép đo cho mỗi đối tượng bao gồm một khoảng duy nhất trong đó quá trình chuyển đổi được quan sát.
whuber

Câu trả lời:


3

Như đã trở nên rõ ràng trong các bình luận cho câu hỏi, dữ liệu chỉ bao gồm bốn quan sát về thời gian để nảy chồi. (Sẽ là một sai lầm khi phân tích chúng như thể chúng là 16 giá trị độc lập.) Chúng bao gồm các khoảng thời gian thay vì thời gian chính xác:

[1,8], [8,16], [16,24], [24,32]

Có một số cách tiếp cận người ta có thể thực hiện. Một điều hấp dẫn, rất chung chung là thực hiện các khoảng thời gian này theo từ của họ: thời gian thực sự của sự bùng nổ nụ có thể là bất cứ điều gì trong mỗi khoảng thời gian. Do đó, chúng tôi được dẫn đến đại diện cho "độ không đảm bảo" ở hai dạng riêng biệt: độ không đảm bảo lấy mẫu (chúng tôi có một mẫu đại diện có lẽ là của loài trong năm nay) và độ không đảm bảo quan sát (được phản ánh bởi các khoảng).

Độ không đảm bảo lấy mẫu được xử lý bằng các kỹ thuật thống kê quen thuộc: chúng tôi được yêu cầu ước tính trung vị và chúng tôi có thể làm như vậy theo bất kỳ cách nào, tùy thuộc vào các giả định thống kê và chúng tôi có thể cung cấp khoảng tin cậy cho ước tính. Để đơn giản, giả sử thời gian để cụm nụ có phân bố đối xứng. Bởi vì nó (có lẽ là không âm), điều này ngụ ý rằng nó có phương sai và cũng cho thấy giá trị trung bình của chỉ bốn quan sát có thể được phân phối bình thường. Hơn nữa, tính đối xứng ngụ ý chúng ta có thể sử dụng giá trị trung bình như một đại diện thay thế cho trung vị (được tìm kiếm trong câu hỏi ban đầu). Điều này cho phép chúng tôi truy cập vào các phương pháp tiêu chuẩn, đơn giản, ước tính và khoảng tin cậy.

Độ không đảm bảo quan sát có thể được xử lý bằng các nguyên tắc số học khoảng (thường được gọi là "phân tích giới hạn xác suất" ): thực hiện tất cả các tính toán bằng cách sử dụng tất cả các cấu hình dữ liệu có thể phù hợp với các quan sát. Hãy xem cách nó hoạt động trong một trường hợp đơn giản: ước tính giá trị trung bình. Rõ ràng bằng trực giác rằng giá trị trung bình có thể không nhỏ hơn = 10,25 , đạt được bằng cách sử dụng các giá trị nhỏ nhất trong mỗi khoảng và cũng có thể là giá trị trung bình không thể lớn hơn ( 8 + 16 + 24 + 32(1+8+16+24)/410.25 = 18 . Chúng tôi kết luận:(8+16+24+32)18

Mean=[10.25,18].

Điều này thể hiện toàn bộ khoảng ước tính: kết quả thích hợp của tính toán với đầu vào khoảng!

Một trên (một chiều) giới hạn tin cậy của giá trị trung bình của bốn giá trị x = ( x 1 , x 2 , x 3 , x 4 ) được tính từ trung bình của chúng m và mẫu độ lệch chuẩn s với Sinh viên phân phối t như1αx=(x1,x2,x3,x4)ms

ucl(x,α)=x+tn1(α)s/n.

Không giống như cách tính giá trị trung bình, thông thường, khoảng thời gian của các hạt nhân bị giới hạn bởi các giá trị giới hạn của các giá trị giới hạn. Thật vậy, lưu ý rằng UCL của các giới hạn khoảng cách thấp hơn, , tương đương 28,0758 , trong khi UCL ( ( 8 , 11,676 , 16 , 24 ) , 0,025 ) = 25,8674ucl((1,8,16,24),.025)28.0758ucl((8,11.676,16,24),.025)=25.8674nhỏ hơn chưa Bằng cách tối đa hóa và tối thiểu hóa các hạt nhân trong số tất cả các kết hợp giá trị có thể phù hợp với các quan sát, chúng tôi thấy (ví dụ) rằng

ucl(data,.025)=[25.8,39.3]

(đó là một khoảng các số đại diện cho một hạt nhân có giá trị khoảng , không phải là khoảng tin cậy!) và, đối với giới hạn tin cậy thấp hơn,

lcl(data,.025)=[0,6.2].

(Các giá trị này đã được làm tròn ra. là giá trị âm được cắt thành 0 với lý do thời gian chồi trung bình không thể âm.)00

Nói cách, chúng ta có thể nói rằng

"Những quan sát này phù hợp với các giá trị, nếu chúng được đo chính xác , có thể dẫn đến giới hạn tin cậy trên 2,5% của trung vị cao tới 39,3 ngày, nhưng không cao hơn. Chúng phù hợp với các giá trị (có thể khác với giá trị đầu tiên) điều đó sẽ dẫn đến giới hạn tin cậy thấp hơn 2,5% thấp đến 0. "

Những gì là để làm điều này là một vấn đề cho suy ngẫm cá nhân và phụ thuộc vào ứng dụng. Nếu ai đó muốn chắc chắn một cách hợp lý rằng vụ nổ chồi xảy ra trước 40 ngày, thì kết quả này mang lại sự hài lòng (có điều kiện dựa trên các giả định về phân bố chùm nụ và tính độc lập của các quan sát ). Nếu một người muốn ước tính vụ nổ chồi đến ngày gần nhất, thì rõ ràng cần thêm dữ liệu. Trong các trường hợp khác, kết luận thống kê này về các giới hạn tin cậy có giá trị trong khoảng thời gian có thể gây nản lòng. Ví dụ, làm thế nào chúng ta có thể tự tin rằng vụ nổ chồi xảy ra ở 50% mẫu vật trước 30 ngày? Thật khó để nói, bởi vì các câu trả lời sẽ là khoảng thời gian.


Có nhiều cách khác để xử lý vấn đề này. Tôi đặc biệt thích sử dụng các phương pháp khả năng tối đa. (Để áp dụng chúng ở đây, chúng ta sẽ cần biết thêm về cách thiết lập các điểm cắt khoảng cách. Vấn đề là chúng có được xác định độc lập với dữ liệu hay không.) Câu hỏi hiện tại dường như là một cơ hội tốt để giới thiệu các phương pháp dựa trên khoảng thời gian vì chúng dường như không được biết đến nhiều, mặc dù trong một số ngành nhất định (đánh giá rủi ro và phân tích thuật toán) chúng đã được một số người ủng hộ nồng nhiệt.


Cảm ơn bạn vì câu trả lời. Ngày lấy mẫu được chọn độc lập với dữ liệu (khoảng 1-2 tuần một lần, khi tôi có cơ hội ra khỏi đó.
David LeBauer

Tôi đã hiểu rất nhiều, David, nhưng điều đó cũng xảy ra với tôi rằng khả năng quan sát của bạn có thể liên quan đến điều kiện thời tiết và các yếu tố khác mà bản thân chúng có thể ảnh hưởng đến thời điểm vỡ nụ. Vì vậy, mặc dù quá trình chọn ngày lấy mẫu có thể được coi là độc lập với quá trình nổ chồi, cả hai vẫn có thể có sự phụ thuộc
whuber

2
xin lỗi, tôi nói sai Ngày lấy mẫu của tôi ít nghiêm ngặt hơn vào mùa thu năm ngoái; vào mùa xuân, tất cả các ngày cách nhau 10 ngày, ngoại trừ các quan sát giây đầu tiên với dt = 13, nhưng không có thay đổi giữa các quan sát này. Tuy nhiên, vào mùa thu, tháng 10-tháng 11 khá mưa; cả độ già của lá và khoảng thời gian lấy mẫu đều phụ thuộc vào thời tiết. (Tôi biết rằng tuổi già của lá phụ thuộc vào thời tiết từ sinh học, thông tin này không có trong dữ liệu).
David LeBauer

1

Đây là một cách tiếp cận đơn giản không sử dụng hồi quy logistic, nhưng cố gắng sử dụng các đề xuất ở trên. Tính toán các số liệu thống kê tóm tắt, có lẽ ngây thơ, rằng ngày thường được phân phối.

Xin ân xá mã không liên quan

  1. viết một hàm để ước tính ngày bứt phá cho mỗi cá nhân: sử dụng nửa ngày của năm giữa lần quan sát cuối cùng là 0 và lần quan sát đầu tiên là 1 cho mỗi cá nhân.

    budburst.day <- function(i){
       data.subset <- subset(testdata, subset =
                             id == i, 
                             na.rm = TRUE)
       y1 <- data.subset$day[max(which(data.subset$obs==0))]
       y2 <- data.subset$day[min(which(data.subset$obs==1))]
       y <- mean(c(y1, y2), na.rm = TRUE)
       if(is.na(y) | y<0 | y > 180) y <- NA
       return(y)
    }
    
  2. Tính toán thống kê tóm tắt

    #calculate mean
    mean(unlist(lapply(1:4, budburst.day)))
    [1] 16.125  
    
    #calculate SE = sd/sqrt(n)
    sd(unlist(lapply(1:4, budburst.day)))/2
    [1] 5.06777
    

0

t1id=124<t1<32t1timedian(ti)

t = replicate(10000, median(sample(c(runif(1, 24, 32),  # id=1
                                     runif(1,  1,  8),  # id=2
                                     runif(1,  8, 16),  # id=3
                                     runif(1, 16, 24)), # id=4
                                   replace=TRUE)))
c(quantile(t, c(.025, .25, .5, .75, .975)), mean=mean(t), sd=sd(t))

Kết quả (lặp lại):

    2.5%       25%       50%       75%     97.5%      mean        sd 
4.602999 11.428310 16.005289 20.549056 28.378774 16.085808  6.243129 
4.517058 11.717245 16.084075 20.898324 28.031452 16.201022  6.219094 

Do đó, một xấp xỉ với khoảng tin cậy 95% của trung vị này là 16 (5 - 28).

EDIT: Xem nhận xét của người đánh giá về giới hạn của phương pháp này khi số lượng quan sát nhỏ (bao gồm n = 4 chính nó).


@GaBorgulya Tôi nghĩ bạn có một lỗi đánh máy; trung vị (95% CI) = 16 (5,28)
David LeBauer

Bạn sẽ làm tốt hơn với sự phù hợp ML của một hình thức phân phối hợp lý với dữ liệu khoảng theo sau là ước tính trung bình của phân phối.
whuber

@whuber "Phân phối hợp lý" là câu hỏi chính.
GaBorgulya

1
Tôi đồng ý. Nó xảy ra với tôi rằng phải có các cách tiếp cận không theo tỷ lệ, chẳng hạn như làm mịn kernel, hoạt động với dữ liệu có giá trị trong khoảng.
whuber

4
1/24

0

Bạn có thể sử dụng mô hình nguy hiểm thời gian riêng biệt phù hợp với hồi quy logistic (sử dụng bộ dữ liệu thời gian cá nhân). Xem Phân tích dữ liệu theo chiều dọc được áp dụng - phần mềmsách Chương 10-12.

Allison cũng thảo luận về

Bộ dữ liệu của bạn là rất nhỏ mặc dù.


1
Cảm ơn bạn vì câu trả lời; mặc dù tập dữ liệu mẫu rất nhỏ, nhưng tập dữ liệu thực có 100 đối tượng được đo trong 6 ngày
David LeBauer

-1

Giả sử rằng bạn sẽ có nhiều dữ liệu của cùng một cấu trúc, bạn sẽ có thể sử dụng phương pháp tính toán (bảng sống) để ước tính tỷ lệ sống trung bình.


1
Ý kiến ​​hay! - Nhưng có lẽ bạn có thể giải thích làm thế nào để có được các TCTD cho trung vị từ một bảng sống?
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.