Hồi quy logistic hay kiểm tra T?


17

Một nhóm người trả lời một câu hỏi. Câu trả lời có thể là "có" hoặc "không". Các nhà nghiên cứu muốn biết liệu tuổi có liên quan đến loại câu trả lời.

Hiệp hội được đánh giá bằng cách thực hiện hồi quy logistic trong đó tuổi là biến giải thích và loại câu trả lời (có, không) là biến phụ thuộc. Nó được giải quyết riêng bằng cách tính tuổi trung bình của các nhóm trả lời "có" và "không", và bằng cách tiến hành kiểm tra T để so sánh các phương tiện.

Cả hai bài kiểm tra đều được thực hiện theo lời khuyên của những người khác nhau và không ai trong số họ chắc chắn đó là cách đúng đắn để đi. Theo quan điểm của câu hỏi nghiên cứu, đó sẽ là bài kiểm tra tốt hơn?

Đối với kiểm định giả thuyết, các giá trị p không đáng kể (hồi quy) và đáng kể (kiểm tra T). Mẫu ít hơn 20 trường hợp.


2
Tôi không chắc đây là câu hỏi thực sự của bạn. Bạn đã chạy cả hai phân tích bạn đang hỏi về. Tôi đoán rằng những gì bạn thực sự muốn biết là một cái gì đó về so sánh giữa hoặc mối quan hệ giữa các thử nghiệm, ví dụ như là tốt hơn. Vui lòng chỉnh sửa câu hỏi của bạn để khắc phục điều đó.
Giăng

Cả hai bài kiểm tra đều được thực hiện theo lời khuyên của những người khác nhau và không ai trong số họ chắc chắn liệu đây có phải là con đường đúng đắn hay không. Theo quan điểm của các câu hỏi nghiên cứu (độ tuổi có liên quan đến loại phản ứng không?) Sẽ là thử nghiệm tốt hơn, hồi quy logistic của loại phản ứng theo tuổi hoặc thử nghiệm T so sánh tuổi trung bình của những người trả lời "có" với trung bình tuổi của những người trả lời "không"?
Gwen

Câu trả lời:


19

Cả hai thử nghiệm đều mô hình hóa mối quan hệ đáp ứng tuổi tác, nhưng họ làm như vậy theo những cách khác nhau. Chọn cái nào tùy thuộc vào cách bạn chọn để mô hình hóa mối quan hệ đó. Sự lựa chọn của bạn phải phụ thuộc vào một lý thuyết cơ bản, nếu có một lý thuyết; về loại thông tin bạn muốn trích xuất từ ​​kết quả; và về cách mẫu được chọn. Câu trả lời này thảo luận về ba khía cạnh theo thứ tự.


Tôi sẽ mô tả kiểm tra t-test và hồi quy logistic bằng ngôn ngữ cho rằng bạn đang nghiên cứu một dân số được xác định rõ và muốn đưa ra các kết luận từ mẫu đến dân số này.

Để hỗ trợ bất kỳ loại suy luận thống kê nào, chúng ta phải giả sử mẫu là ngẫu nhiên.

  • Một thử nghiệm t giả định rằng những người trong mẫu trả lời "không" là một mẫu ngẫu nhiên đơn giản của tất cả những người không trả lời trong dân số và những người trong mẫu trả lời "có" là một mẫu ngẫu nhiên đơn giản của tất cả những người trả lời có trong dân số.

    Một bài kiểm tra t đưa ra các giả định kỹ thuật bổ sung về sự phân bố của các lứa tuổi trong mỗi hai nhóm trong dân số. Các phiên bản khác nhau của thử nghiệm t tồn tại để xử lý các khả năng có thể xảy ra.

  • Hồi quy logistic giả định tất cả mọi người ở bất kỳ độ tuổi nào đều là một mẫu ngẫu nhiên đơn giản của những người trong độ tuổi đó trong dân số. Các nhóm tuổi riêng biệt có thể thể hiện tỷ lệ phản ứng "có" khác nhau. Các tỷ lệ này, khi được biểu thị bằng tỷ lệ cược log (chứ không phải là tỷ lệ thẳng), được giả định là có liên quan tuyến tính với tuổi (hoặc với một số chức năng xác định theo tuổi).

    Hồi quy logistic dễ dàng được mở rộng để phù hợp với các mối quan hệ phi tuyến tính giữa tuổi tác và phản ứng. Một phần mở rộng như vậy có thể được sử dụng để đánh giá tính hợp lý của giả định tuyến tính ban đầu. Có thể thực hiện được với các bộ dữ liệu lớn, có đủ chi tiết để hiển thị phi tuyến tính, nhưng dường như không được sử dụng nhiều với các bộ dữ liệu nhỏ. Một nguyên tắc chung - các mô hình hồi quy nên có số lần quan sát gấp 10 lần so với tham số - cho thấy cần có hơn 20 quan sát để phát hiện phi tuyến (cần tham số thứ ba ngoài chức năng chặn và độ dốc của hàm tuyến tính ).

Một thử nghiệm t phát hiện xem độ tuổi trung bình có khác nhau giữa không và có - người trả lời trong dân số. Hồi quy logistic ước tính tỷ lệ đáp ứng thay đổi theo độ tuổi. Do đó, nó linh hoạt hơn và có khả năng cung cấp thông tin chi tiết hơn so với thử nghiệm t. Mặt khác, nó có xu hướng kém mạnh mẽ hơn bài kiểm tra t cho mục đích cơ bản là phát hiện sự khác biệt giữa các độ tuổi trung bình trong các nhóm.

Có thể cho các cặp thử nghiệm để thể hiện tất cả bốn kết hợp có ý nghĩa và không quan trọng. Hai trong số này là có vấn đề:

  • Kiểm tra t không đáng kể nhưng hồi quy logistic là. Khi các giả định của cả hai thử nghiệm đều hợp lý, thì kết quả như vậy thực tế là không thể, bởi vì thử nghiệm t không cố gắng phát hiện mối quan hệ cụ thể như được đưa ra bằng hồi quy logistic. Tuy nhiên, khi mối quan hệ đó đủ phi tuyến để khiến các đối tượng già nhất và trẻ nhất chia sẻ một ý kiến ​​và các đối tượng trung niên khác, thì việc mở rộng hồi quy logistic sang các mối quan hệ phi tuyến có thể phát hiện và định lượng tình huống đó, mà không có thử nghiệm t nào có thể phát hiện được .

  • Bài kiểm tra t có ý nghĩa nhưng hồi quy logistic thì không, như trong câu hỏi. Điều này thường xảy ra, đặc biệt là khi có một nhóm người trả lời trẻ hơn, một nhóm người trả lời lớn tuổi và ít người ở giữa. Điều này có thể tạo ra một sự tách biệt lớn giữa tỷ lệ phản hồi của người trả lời không và có. Nó dễ dàng được phát hiện bằng thử nghiệm t. Tuy nhiên, hồi quy logistic sẽ có thông tin chi tiết tương đối ít về cách tốc độ phản hồi thực sự thay đổi theo tuổi hoặc nếu không nó sẽ có thông tin không thể kết luận: trường hợp "tách hoàn toàn" trong đó tất cả người già phản ứng theo một cách và tất cả những người trẻ tuổi khác theo cách khác-- nhưng trong trường hợp đó, cả hai thử nghiệm thường có giá trị p rất thấp.

Lưu ý rằng thiết kế thử nghiệm có thể làm mất hiệu lực một số giả định thử nghiệm. Chẳng hạn, nếu bạn chọn người theo độ tuổi của họ trong thiết kế phân tầng, thì giả định của bài kiểm tra t (rằng mỗi nhóm phản ánh một mẫu tuổi ngẫu nhiên đơn giản) sẽ trở thành nghi vấn. Thiết kế này sẽ đề nghị dựa vào hồi quy logistic. Nếu thay vào đó, bạn có hai nhóm, một trong số những người không trả lời và một trong số những người trả lời có, và được chọn ngẫu nhiên từ những người đó để xác định tuổi của họ, thì các giả định lấy mẫu của hồi quy logistic sẽ bị nghi ngờ trong khi những người kiểm tra t sẽ giữ. Thiết kế đó sẽ đề nghị sử dụng một số hình thức kiểm tra t.

(Thiết kế thứ hai có vẻ ngớ ngẩn ở đây, nhưng trong trường hợp "tuổi" được thay thế bằng một số đặc điểm khó khăn, tốn kém hoặc mất thời gian để đo lường nó có thể hấp dẫn.)


Không phải hầu hết các mối quan tâm phi tuyến tính và phân tách sẽ được giảm bớt bằng cách sử dụng một spline trên biến tuổi? Về vấn đề đó, xin lỗi nhưng tôi không thể hiểu tại sao thiết kế "gộp" lại làm mất hiệu lực các kết quả của hồi quy logistic. Chắc chắn, giả định của mẫu ngẫu nhiên không còn nữa nhưng chúng ta có quan tâm rằng chúng ta có lựa chọn thiết kế này không? Bạn đang ám chỉ đến sự lựa chọn thiên vị? (Thiết kế mà bạn mô tả có vẻ giống như một nghiên cứu kiểm soát trường hợp đối với tôi nhưng tôi có thể sai ...) (rõ ràng là +1)
usεr11852 nói rằng Rebstate Monic

@ usεr11852 Cảm ơn bạn đã bình luận chu đáo. Tôi đã viết lại một số đoạn để làm rõ những điểm bạn đưa lên. Mặc dù phân chia tuổi có thể đối phó với tính phi tuyến trong hồi quy logistic, nhưng nó có thể làm tăng khả năng tách hoàn toàn. Tôi không chắc ý của bạn là "thiết kế gộp", nhưng tôi sẽ nghi ngờ về những nỗ lực diễn giải các giá trị p của hồi quy logistic trong đó mô hình xác suất không thể được chứng minh (đó là cách lấy mẫu ngẫu nhiên cho phép chúng tôi làm).
whuber

Cảm ơn bạn vì những điều này. Vâng, tôi hoàn toàn đánh giá cao điểm bạn đưa ra về sự tách biệt hoàn toàn (hiệu ứng Hauck-Donner), tôi đã không xem xét chúng. OK, tôi hiểu ý của bạn bây giờ về điều đó về hai nhóm bây giờ. Trong trường hợp đó, chúng tôi sẽ có một khái niệm nghiên cứu quan sát đã được thống nhất (chúng tôi quan sát / xác định hai nhóm) vì vậy chúng tôi nên tìm cách kiểm soát nó (điểm số xu hướng, v.v.)
usεr11852 nói rằng Rebstate Monic

5

tXY

X|Y= =Tôi~N(μTôi,σ2).
Y~bernoulli(p)YX= =x
P(Y= =1|X= =x)= =fX|Y= =1(x)P(Y= =1)ΣTôi= =01fX|Y= =Tôi(x)P(Y= =Tôi)= =pe-12σ2(x-μ1)2pe-12σ2(x-μ1)2+(1-p)e-12σ2(x-μ0)2= =11+1-ppe-12σ2(x-μ0)2+12σ2(x-μ1)2= =logit-1(β0+β1x)
β0= =lnp1-p-12σ2(μ12-μ02)β1= =1σ2(μ1-μ0).

Vì vậy, trong ý nghĩa này, hai mô hình có điều kiện là tương thích.


3

The better test is the the one that better addresses your question. Neither is just better on it's face. The differences here are equivalent to those found when regressing y on x and x on y and the reasons for different results are similar. The variance being assessed depends on which variable is being treated as the response variable in the model.

Câu hỏi nghiên cứu của bạn là rất mơ hồ. Có lẽ nếu bạn xem xét hướng nhân quả, bạn có thể đưa ra kết luận về phân tích nào bạn muốn sử dụng. Có phải tuổi tác khiến mọi người trả lời "có" hoặc trả lời "có" khiến mọi người già đi? Có nhiều khả năng là trước đây, trong trường hợp phương sai trong xác suất "có" là điều bạn muốn mô hình hóa và do đó hồi quy logistic là lựa chọn tốt nhất.

Điều đó nói rằng, bạn nên kiểm tra các giả định của các bài kiểm tra. Chúng có thể được tìm thấy trực tuyến tại wikipedia hoặc trong sách giáo khoa của bạn về chúng. Cũng có thể là bạn có lý do chính đáng để không thực hiện hồi quy logistic và khi điều đó xảy ra, bạn có thể cần phải hỏi một câu hỏi khác.


1
Bạn có nghĩa là "không thực hiện hồi quy logistic"?
đánh dấu999
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.