Làm cách nào để kiểm tra tính độc lập với các biến phân loại không độc quyền?


8

Giới thiệu

Tôi có một bảng dự phòng phân loại với nhiều hàng và kết quả nhị phân, tôi tính:

name  outcome1  outcome2
----  --------  --------
A     14        5       
B     17        2       
C     6         5       
D     11        8       
E     18        14

Điều này hoàn toàn tốt, bởi vì cả hai loại (tên và kết quả) đều độc lập với nhau, tức là người A không thể là người B cùng một lúc và kết quả1 không xảy ra cùng lúc với kết quả2.

Thêm vấn đề

Tuy nhiên, bây giờ tôi muốn làm phong phú tập dữ liệu của mình bằng cách gán các lớp cho các tác nhân. Các lớp không độc quyền, và một số thậm chí có thể phụ thuộc lẫn nhau. Đối với ví dụ trên, với bốn lớp C x :

name  C1   C2   C3   C4 
----  ---  ---  ---  ---
A     0    0    1    1  
B     1    0    1    0  
C     1    1    0    1  
D     1    1    0    0  
E     1    1    1    0

Bây giờ tôi muốn tìm hiểu xem có sự phụ thuộc của một lớp vào kết quả của thí nghiệm hay không.

Giải pháp có thể (ngây thơ)

Ý tưởng của tôi ban đầu là tổng hợp dựa trên lớp và sau đó thực hiện các bài kiểm tra độc lập, để bảng sẽ trông như thế này:

class   outcome1  outcome2
------  --------  --------
C3      49        21
not_C3  17        13

Tuy nhiên, sau đó tôi nhận ra rằng tôi che giấu ảnh hưởng của các lớp khác bằng phương thức này, bởi vì tôi cô lập dựa trên lớp, điều này có thể cho tôi kết quả xấu nếu một số lớp phụ thuộc mạnh vào nhau.

Ngoài ra, tập dữ liệu thực của tôi chứa khoảng 200 tác nhân và 30 danh mục, vì vậy phương pháp của tôi sẽ cho rất nhiều kết quả mà bây giờ tôi biết cách diễn giải.

Câu hỏi

Với suy nghĩ này, tôi hướng đến bạn: Phương pháp thống kê nào có thể áp dụng cho sự phụ thuộc kiểm tra (in-) vào một tập dữ liệu với một biến không phân loại và một biến phân loại nhị phân?

Tôi muốn nhận được một số kết quả dọc theo dòng "Loại 1 là yếu tố dự báo mạnh nhất cho kết quả ( p <0,01). Nó cũng tương quan với Loại 2."

Các giải pháp sử dụng Python hoặc R được chào đón nhiều hơn, nhưng tôi không cần mã. Tôi cần biết phương pháp nào được áp dụng.


result1 và result2 cũng độc lập? Bạn chỉ nói rằng chúng không xảy ra cùng một lúc. Tôi tưởng tượng bạn có thể thực hiện hồi quy poisson ở đây, nếu bạn muốn đo lường sự phụ thuộc của nhiều biến vào kết quả. Nhưng điều này có thể là một vấn đề nếu các biến giải thích của bạn rất phụ thuộc.
Erosennin

Có, result1 và result2 là độc lập.
tschoppi

Nếu "result1 không xảy ra cùng lúc với result2", thì chắc chắn chúng không độc lập. Nó sẽ giúp giải thích bối cảnh - chính xác những gì bạn đang quan sát cho mỗi người?
Scortchi - Tái lập Monica

@Scortchi Bạn có thể nói rõ hơn về tuyên bố độc lập đó không? Họ có thể không độc lập bởi vì chúng xảy ra cùng một lúc?
Erosennin

@tschoppi bạn viết: "Bây giờ, tôi muốn gán các lớp (bằng tay) cho những người này, rồi kiểm tra xem đầu ra có phụ thuộc vào một trong các lớp không. Vấn đề của tôi là các lớp, trong khi không nhất thiết phải phụ thuộc vào nhau, là không độc quyền. Tuy nhiên, các lớp có thể phụ thuộc lẫn nhau. ". Thực tế là chúng là độc quyền mà bạn có thể giải quyết bằng cách làm cho chúng tương tác với nhau khi chỉ định hồi quy poisson. Nếu tôi không hoàn toàn lạc lối ở đây, hiểu nhầm dữ liệu và câu hỏi của bạn
Erosennin

Câu trả lời:


0

Tôi đề nghị thực hiện hồi quy poisson riêng biệt trên result1 và result2 (biến trả lời) với class1, class2, class3 hoặc class4 như các biến giải thích.

Bạn nói rằng các lớp không độc quyền, nhưng đây không phải là vấn đề nếu bạn tính đến sự tương tác giữa các lớp. Bạn có thể đọc thêm về tương tác trong bài sau: Đặc tả và giải thích các thuật ngữ tương tác bằng cách sử dụng glm ()

Làm thế nào để xử lý sự phụ thuộc giữa các lớp (về mặt thực hiện hồi quy poisson), tôi thấy không có cách nào thoát khỏi. Bạn có thể đo tầm quan trọng của sự liên kết với một chi-squared-kiểm tra, và sức mạnh của sự liên kết với V Cramer . Nếu điều này trả lời câu hỏi của bạn, tôi không biết.


Tôi nghi ngờ (1) sự quan tâm có thể tập trung vào số lượng kết quả 1 so với kết quả 2 & (2) bỏ qua cấp độ người / đại lý có thể là không khôn ngoan.
Scortchi - Tái lập Monica

Sẽ không (1) được trả lời bằng cách so sánh các hệ số (đầu ra từ hồi quy) result1 và result2?
Erosennin

(1) Có; nhưng chính xác làm thế nào để so sánh chúng dường như là một phần quan trọng của câu hỏi. (Cách tiếp cận thuận tiện sẽ là coi 'loại kết quả' như một công cụ dự đoán 'đếm' & bao gồm tất cả các tương tác của nó với các biến 'lớp'. Bạn sẽ có một mô hình lớn hơn bao gồm hai hồi quy riêng biệt - đó là mô hình tuyến tính log đối với một bảng dự phòng đa chiều - nhưng với sự khác biệt giữa chúng được tham số hóa một cách khéo léo. Một số có thể đi xa hơn và biến nó thành một mô hình hồi quy logistic bằng cách điều chỉnh những gì chúng coi là tham số phiền toái.)
Scortchi - Tái lập Monica

(2) Điểm thứ hai quan trọng hơn. Tom & Dick hút 20 & 35 điếu thuốc trong một tuần; Harry & Pete, trong một số điều trị chống hút thuốc mới, 30 & 280. Chúng ta có đánh giá hiệu quả của việc điều trị bằng cách so sánh tổng số không. thuốc lá được hút bởi những người không sử dụng nó, 55, đến tổng số không. hút thuốc bởi những người sử dụng nó, 310?
Scortchi - Phục hồi Monica

1
(1) Xem Tôi có thể sử dụng thử nghiệm nào để so sánh độ dốc từ hai hoặc nhiều mô hình hồi quy? cho ý tưởng "một mô hình lớn" chung, và sau đó là hồi quy Log-linear so với hồi quy logistic & Germán Rodríguez trên các mô hình log-linear . (2) Một so sánh được ghép nối trước đó sau này sẽ hữu ích, tôi không có ý đề xuất điều đó bằng ví dụ của tôi (xin lỗi) - đúng hơn là một mô hình phân cấp.
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.