Đánh giá tính đa hình của các biến dự đoán nhị phân


8

Tôi đang làm việc trong một dự án nơi chúng tôi quan sát hành vi trong một nhiệm vụ (ví dụ: thời gian phản hồi) và mô hình hóa hành vi này như là một chức năng của một số biến được thử nghiệm cũng như một số biến quan sát (giới tính của người tham gia, IQ của người tham gia, phản hồi theo dõi lên bảng câu hỏi). Tôi không lo ngại về tính đa hình trong số các biến thực nghiệm vì chúng bị thao túng đặc biệt để độc lập, nhưng tôi lo ngại về các biến quan sát được. Tuy nhiên, tôi không chắc cách đánh giá tính độc lập giữa các biến quan sát, một phần vì tôi dường như nhận được một số kết quả khác nhau tùy thuộc vào cách tôi thiết lập người đánh giá và cũng vì tôi không quen lắm với mối tương quan trong bối cảnh một hoặc cả hai biến là nhị phân.

Ví dụ, đây là hai cách tiếp cận khác nhau để xác định xem giới tính có độc lập với IQ hay không. Tôi không phải là người thích thử nghiệm ý nghĩa giả thuyết null, vì vậy trong cả hai phương pháp, tôi xây dựng hai mô hình, một mô hình có mối quan hệ và một mô hình không có, sau đó tính toán tỷ lệ khả năng đăng nhập được điều chỉnh và AIC:

m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)

m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)

Tuy nhiên, những cách tiếp cận này mang lại một số câu trả lời khác nhau; LLR1 khoảng 7, cho thấy bằng chứng mạnh mẽ ủng hộ mối quan hệ, trong khi LLR2 khoảng 0,3, cho thấy bằng chứng rất yếu ủng hộ mối quan hệ.

Hơn nữa, nếu tôi cố gắng đánh giá sự độc lập giữa giới tính và một biến quan sát nhị phân khác, "yn", thì LLR kết quả tương tự phụ thuộc vào việc tôi thiết lập các mô hình để dự đoán giới tính từ yn hay dự đoán yn từ tình dục.

Bất kỳ đề xuất về lý do tại sao những khác biệt này đang phát sinh và làm thế nào để tiến hành hợp lý nhất?


seqtrong mã của bạn một lỗi đánh máy cho sex? Nếu bạn đã sao chép-dán mã phân tích của mình, đó có thể là một phần của vấn đề ..
onestop

Rất tiếc, đó chỉ là một lỗi đánh máy trong mã tôi đưa vào ở trên. Trong mã thực tế của tôi, tôi không có lỗi đánh máy. Cảm ơn vì đã nắm bắt điều này mặc dù.
Mike Lawrence

Câu trả lời:


3

Tôi nghĩ rằng bạn đang cố gắng diễn giải P (A | B) và P (B | A) như thể chúng phải giống nhau. Không có lý do gì để chúng bằng nhau, vì quy tắc sản phẩm:

P(AB)=P(A|B)P(B)=P(B|A)P(A)

trừ khi thì nói chung. Điều này giải thích sự khác biệt trong trường hợp "yn". Trừ khi bạn có bảng "cân bằng" (tổng số hàng bằng tổng số cột), các xác suất có điều kiện (hàng và cột) sẽ không bằng nhau.P(B)=P(A)P(A|B)P(B|A)

Một thử nghiệm cho "độc lập logic / thống kê" (nhưng không phải là độc lập nguyên nhân) giữa các biến phân loại có thể được đưa ra như sau:

T=ijOijlog(OijEij)

Trong đó lập chỉ mục các ô của bảng (vì vậy trong ví dụ của bạn, ). là giá trị quan sát được trong bảng và là giá trị "được mong đợi" dưới sự độc lập, đơn giản là sản phẩm của các lề i j = 11 , 12 , 21 , 22 O i j E i j E i j = O O i ijij=11,12,21,22OijEij

Eij=OOiOOjO=OiOjO

Trong đó " " chỉ ra rằng bạn tính tổng chỉ số đó. Bạn có thể chỉ ra rằng nếu bạn có giá trị tỷ lệ cược log trước cho tính độc lập của thì tỷ lệ cược log sau là . Giả thuyết thay thế là (nghĩa là không đơn giản hóa, không độc lập), với . Do đó, T nói "mạnh mẽ như thế nào" dữ liệu hỗ trợ tính không độc lập, trong nhóm phân phối đa phương thức. Điểm hay của bài kiểm tra này là nó hoạt động với tất cả , vì vậy bạn không phải lo lắng về bảng "thưa thớt". Thử nghiệm này vẫn sẽ cho kết quả hợp lý.L I L I - T E i j = O i j T = 0 E i j > 0LILITEij=OijT=0Eij>0

Đối với các hồi quy, điều này cho bạn biết rằng giá trị IQ trung bình khác nhau giữa hai giá trị giới tính, mặc dù tôi không biết thang đo của sự khác biệt AIC (đây có phải là "lớn" không?).

Tôi không chắc AIC thích hợp như thế nào với GLM nhị thức. Có thể là một ý tưởng tốt hơn để xem xét các bảng ANOVA và độ lệch cho LM và GLM tương ứng.

Ngoài ra, bạn đã vẽ dữ liệu? luôn luôn âm mưu dữ liệu !!! điều này sẽ có thể cho bạn biết những điều mà bài kiểm tra không có. IQ trông khác nhau như thế nào khi được vẽ theo giới tính? Giới tính trông khác nhau như thế nào khi được vẽ bởi IQ?


3

Tại sao bạn lo lắng về đa bạch cầu? Lý do duy nhất mà chúng ta cần giả định này trong hồi quy là để đảm bảo rằng chúng ta có được các ước tính duy nhất. Multicolinearity chỉ quan trọng đối với ước tính khi nó hoàn hảo --- khi một biến là sự kết hợp tuyến tính chính xác của các biến khác.

Nếu các biến được thao tác thử nghiệm của bạn được chỉ định ngẫu nhiên, thì mối tương quan của chúng với các yếu tố dự đoán được quan sát cũng như các yếu tố không quan sát được sẽ là (khoảng) 0; giả định này giúp bạn có được ước tính không thiên vị.

Điều đó nói rằng, đa tuyến không hoàn hảo có thể làm cho các lỗi tiêu chuẩn của bạn lớn hơn, nhưng chỉ trên các biến đó gặp phải vấn đề đa tuyến. Trong ngữ cảnh của bạn, các lỗi tiêu chuẩn của các hệ số trên các biến thử nghiệm của bạn sẽ không bị ảnh hưởng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.