Giới thiệu
Tôi có một bảng dự phòng phân loại với nhiều hàng và kết quả nhị phân, tôi tính:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
Điều này hoàn toàn tốt, bởi vì cả hai loại (tên và kết quả) đều độc lập với nhau, tức là người A không thể là người B cùng một lúc và kết quả1 không xảy ra cùng lúc với kết quả2.
Thêm vấn đề
Tuy nhiên, bây giờ tôi muốn làm phong phú tập dữ liệu của mình bằng cách gán các lớp cho các tác nhân. Các lớp không độc quyền, và một số thậm chí có thể phụ thuộc lẫn nhau. Đối với ví dụ trên, với bốn lớp C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Bây giờ tôi muốn tìm hiểu xem có sự phụ thuộc của một lớp vào kết quả của thí nghiệm hay không.
Giải pháp có thể (ngây thơ)
Ý tưởng của tôi ban đầu là tổng hợp dựa trên lớp và sau đó thực hiện các bài kiểm tra độc lập, để bảng sẽ trông như thế này:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
Tuy nhiên, sau đó tôi nhận ra rằng tôi che giấu ảnh hưởng của các lớp khác bằng phương thức này, bởi vì tôi cô lập dựa trên lớp, điều này có thể cho tôi kết quả xấu nếu một số lớp phụ thuộc mạnh vào nhau.
Ngoài ra, tập dữ liệu thực của tôi chứa khoảng 200 tác nhân và 30 danh mục, vì vậy phương pháp của tôi sẽ cho rất nhiều kết quả mà bây giờ tôi biết cách diễn giải.
Câu hỏi
Với suy nghĩ này, tôi hướng đến bạn: Phương pháp thống kê nào có thể áp dụng cho sự phụ thuộc kiểm tra (in-) vào một tập dữ liệu với một biến không phân loại và một biến phân loại nhị phân?
Tôi muốn nhận được một số kết quả dọc theo dòng "Loại 1 là yếu tố dự báo mạnh nhất cho kết quả ( p <0,01). Nó cũng tương quan với Loại 2."
Các giải pháp sử dụng Python hoặc R được chào đón nhiều hơn, nhưng tôi không cần mã. Tôi cần biết phương pháp nào được áp dụng.