Làm thế nào để sức mạnh của hồi quy logistic và kiểm tra t so sánh?


18

Là sức mạnh của hồi quy logistic và tương đương kiểm tra t? Nếu vậy, chúng phải là "mật độ dữ liệu tương đương", theo đó, ý tôi là cùng một số lượng quan sát cơ bản mang lại cùng một công suất cho một alpha cố định là 0,05. Hãy xem xét hai trường hợp:

  1. [Thử nghiệm t tham số]: 30 lần rút ra từ quan sát nhị thức được thực hiện và các giá trị kết quả được tính trung bình. Điều này được thực hiện 30 lần cho nhóm A (có nhị thức Pr là 0,70 xảy ra) và 30 lần cho nhóm B (có nhị phân Pr là 0,75 xảy ra). Điều này mang lại 30 phương tiện cho mỗi nhóm đại diện cho một bản tóm tắt 1.800 rút ra từ phân phối nhị thức. Một thử nghiệm t 58df được thực hiện để so sánh các phương tiện.
  2. [Hồi quy logistic]: Hồi quy logistic được thực hiện với độ dốc được mã hóa giả đại diện cho thành viên nhóm và mỗi lần rút 1.800.

Câu hỏi của tôi có hai phần:

  1. Cho một tập hợp alpha là 0,05, sức mạnh của các phương pháp này sẽ giống hay khác nhau? Tại sao? Làm thế nào tôi có thể chứng minh nó?
  2. Là câu trả lời cho câu hỏi 1 có nhạy cảm với các cỡ mẫu đi vào kiểm tra t, cỡ mẫu của từng nhóm trong thử nghiệm t, xác suất nhị thức cơ bản hoặc một số yếu tố khác không? Nếu vậy, làm thế nào tôi có thể biết (không có mô phỏng) rằng sức mạnh thực sự khác biệt và loại thay đổi nào sẽ tạo ra loại thay đổi nào về sức mạnh? Ngoài ra, cung cấp mã R đã giải quyết vấn đề bằng cách sử dụng mô phỏng.

Câu trả lời:


19

Nếu tôi đã tính toán chính xác, hồi quy logistic không có triệu chứng có sức mạnh tương đương với kiểm tra t. Để thấy điều này, hãy viết ra khả năng đăng nhập của nó và tính toán kỳ vọng của Hessian ở mức tối đa toàn cầu (ước tính tiêu cực của nó là ma trận hiệp phương sai của giải pháp ML). Đừng bận tâm với tham số hóa logistic thông thường: đơn giản hơn là tham số hóa nó với hai xác suất được đề cập. Các chi tiết sẽ phụ thuộc vào chính xác cách bạn kiểm tra tầm quan trọng của hệ số hồi quy logistic (có một số phương pháp).

Các thử nghiệm này có sức mạnh tương tự nên không quá ngạc nhiên, vì lý thuyết chi bình phương cho ước tính ML dựa trên xấp xỉ bình thường với khả năng ghi nhật ký và thử nghiệm t dựa trên xấp xỉ bình thường với phân phối tỷ lệ. Mấu chốt của vấn đề là cả hai phương pháp đều đưa ra các ước tính giống nhau về hai tỷ lệ và cả hai ước tính đều có cùng một lỗi tiêu chuẩn.


Một phân tích thực tế có thể thuyết phục hơn. Chúng ta hãy áp dụng một số thuật ngữ chung cho các giá trị trong một nhóm nhất định (A hoặc B):

  • là xác suất của 1.p
  • là kích thước của mỗi bộ bốc thăm.n
  • là số bộ rút thăm.m
  • là lượng dữ liệu.N=mn
  • (bằng 0 hoặc 1 ) là giá trị củakết quả thứ j trongtập rút thăm thứ i .kij01jthith
  • là tổng số người trong tập rút thăm thứ i .kiith
  • là tổng số người.k

Hồi quy logistic thực chất là công cụ ước tính ML của . Logarit của nó được đưa ra bởip

log(L)=klog(p)+(Nk)log(1p).

Các dẫn xuất của nó đối với tham số p

log(L)p=kpNk1p and

2log(L)p2=kp2+Nk(1p)2.

Thiết là người đầu tiên không lãi suất ML ước tính p = k / N và cắm đó vào đối ứng của biểu thức thứ hai mang lại phương sai p ( 1 - p ) / N , đó là bình phương của sai số chuẩn.p^=k/Np^(1p^)/N

Các số liệu thống kê t sẽ được lấy từ ước lượng dựa trên dữ liệu được nhóm bởi bộ rút ra; cụ thể là sự khác biệt của các phương tiện (một từ nhóm A và khác từ nhóm B) chia cho sai số chuẩn của chênh lệch đó, được lấy từ độ lệch chuẩn của phương tiện. Sau đó, hãy nhìn vào độ lệch trung bình và độ lệch chuẩn cho một nhóm nhất định. Equals bình , đó là giống với ML ước lượng p . Độ lệch chuẩn trong câu hỏi là độ lệch chuẩn của phương tiện vẽ; đó là độ lệch chuẩn của tập hợp k i / nk/Np^ki/n . Đây là mấu chốt của vấn đề, vì vậy hãy khám phá một số khả năng.

  1. Giả sử dữ liệu không được chia thành các nhóm rút ở tất cả: đó là, m = N . Các k i là phương tiện bốc thăm. Họ mẫu đúng bằng N / ( N - 1 ) lần p ( 1 - p ) . Từ đó suy ra rằng lỗi tiêu chuẩn giống hệt với lỗi tiêu chuẩn ML ngoài một yếu tốn=1m=NkiN/(N1)p^(1p^) , về cơ bản là1khiN=1800N/(N1)1N=1800 . Do đó - ngoài sự khác biệt nhỏ này - bất kỳ thử nghiệm nào dựa trên hồi quy logistic sẽ giống như thử nghiệm t và chúng tôi sẽ đạt được sức mạnh cơ bản như nhau.

  2. Khi dữ liệu được nhóm lại, phương sai (đúng) của bằng p ( 1 - p ) / n vì các thống kê k i đại diện cho tổng của n biến Bernoulli ( p ), mỗi biến có p ( 1 - p) ) . Do đó, lỗi tiêu chuẩn dự kiến về giá trị trung bình của m của các giá trị này là căn bậc hai của p ( 1 - p ) / n / m =ki/np(1p)/nkinpp(1p)mp(1p)/n/m=p(1p)/N , giống như trước đây.

Số 2 cho thấy sức mạnh của bài kiểm tra không nên thay đổi đáng kể với cách rút thăm được phân bổ (nghĩa là, với cách n được biến đổi theo chủ đề m n = Nmnmn=N ), ngoài hiệu ứng khá nhỏ từ điều chỉnh trong mẫu phương sai (trừ khi bạn quá ngu ngốc khi sử dụng cực kỳ ít bộ rút thăm trong mỗi nhóm).

Mô phỏng giới hạn để so sánh với p = 0,74 (với 10.000 lần lặp mỗi lần) liên quan đến m = 900 , n = 1 (về cơ bản là hồi quy logistic); m = n = 30 ; và m = 2 , n = 450 (tối đa hóa điều chỉnh phương sai mẫu) mang lại điều này: công suất (tại α =p=0.70p=0.74m=900,n=1m=n=30m=2,n=450α=0.05, một phía) trong hai trường hợp đầu tiên là 0,59 trong khi ở trường hợp thứ ba, trong đó hệ số điều chỉnh tạo ra sự thay đổi vật chất (hiện chỉ có hai bậc tự do thay vì 1798 hoặc 58), nó giảm xuống còn 0,36. Một thử nghiệm khác so sánh đến p = 0,52 cho các sức mạnh lần lượt là 0,22, 0,21 và 0,15: một lần nữa, chúng tôi chỉ quan sát thấy một sự sụt giảm nhẹ từ việc không nhóm vào rút thăm (= hồi quy logistic) để nhóm thành 30 nhóm và giảm đáng kể chỉ hai nhóm.p=0.50p=0.52

Đạo đức của phân tích này là:

  1. Bạn sẽ không mất nhiều khi phân vùng các giá trị dữ liệu của bạn thành một số lượng lớn m các nhóm "rút thăm" tương đối nhỏ.Nm
  2. Bạn có thể mất sức mạnh đáng kể khi sử dụng số lượng nhỏ các nhóm ( là nhỏ, n - lượng dữ liệu trên mỗi nhóm - là lớn).mn
  3. Tốt nhất bạn không nên nhóm các giá trị dữ liệu của bạn thành "vẽ". Chỉ cần phân tích chúng nguyên trạng (sử dụng bất kỳ kiểm tra hợp lý nào, bao gồm hồi quy logistic và kiểm tra t).N

1
@suncoolsu Thật đáng tiếc, chúng tôi không thể bỏ phiếu cập nhật ...
chl

2
@chl .. Tôi đồng ý, tôi muốn đưa ra (+2) :-), thực sự tôi chưa bao giờ nghĩ sâu sắc về câu hỏi này cho đến khi cập nhật này.
suncoolsu

Như thường lệ, một chuyến tham quan từ Bill Huber. Tôi nhìn vào câu hỏi khó hiểu làm thế nào để so sánh sức mạnh cho bài kiểm tra t với hồi quy logistic. Nhưng có vẻ như điểm chung là đặt cả hai phương pháp vào nhiệm vụ kiểm tra tỷ lệ ..
Michael R. Chernick

8

Đây là đoạn mã trong R minh họa mô phỏng câu trả lời của người đánh bóng . Phản hồi về việc cải thiện mã R của tôi được chào đón nhiều hơn.

N <- 900            # Total number data points
m <- 30;            # Size of draw per set
n <- 30;            # No of sets

p_null <- 0.70;     # Null hypothesis
p_alternate <- 0.74 # Alternate hypothesis
tot_iter <- 10000;

set.seed(1);        # Initialize random seed
null_rejected <- 0; # Set counter to 0
for (iter in 1:tot_iter)
{
    draws1 <- matrix(0,m,n);
    draws2 <- matrix(0,m,n);
    means1 <- matrix(0,m);
    means2 <- matrix(0,m);

    for (obs in 1:m)
    {
        draws1[obs,] <- rbinom(n,1,p_null);
        draws2[obs,] <- rbinom(n,1,p_alternate);

        means1[obs,] <- mean(draws1[obs,]);
        means2[obs,] <- mean(draws2[obs,]);
    }
    if (t.test(means1,means2,alternative="l")$p.value <= 0.05)
    {
        null_rejected <- null_rejected + 1; 
    }
}
power <- null_rejected / tot_iter

1
Cảm ơn vì đã chia sẻ! (Tôi thích phong cách của bạn trong việc tạo ra tất cả các biến tham số và nhận xét rõ ràng về chúng.) Tôi đã hết phiếu ngày hôm nay :-( vì vậy tôi sẽ phải chờ để nâng cấp nó.
whuber

2
replicate()rbinom() k{*}apply()

@chl Cảm ơn. Tôi đang sử dụng những câu hỏi này để học R! Vì vậy, thông tin phản hồi như của bạn là có giá trị.

@Skrikant LOL Tôi chỉ thêm: "BTW Tôi thích cách bạn học R!"
chl

Tôi bối rối; Điều này không chỉ cung cấp cho sức mạnh của t.test?
russellpierce
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.