Cộng tác giữa các biến phân loại


11

Có rất nhiều về cộng tác liên quan đến các yếu tố dự đoán liên tục nhưng không nhiều đến mức tôi có thể tìm thấy trên các dự đoán phân loại. Tôi có dữ liệu của loại này minh họa dưới đây.

Yếu tố thứ nhất là một biến số di truyền (số lượng alen), yếu tố thứ hai là một loại bệnh. Rõ ràng các gen đi trước bệnh và là một yếu tố cho thấy các triệu chứng dẫn đến chẩn đoán. Tuy nhiên, một phân tích thường xuyên sử dụng tổng bình phương loại II hoặc III, như thường được thực hiện trong tâm lý với SPSS, bỏ lỡ hiệu ứng. Một loại tổng hợp phân tích hình vuông chọn nó, khi thứ tự thích hợp được nhập vì nó phụ thuộc vào thứ tự. Hơn nữa, có khả năng là các thành phần bổ sung cho quá trình bệnh không liên quan đến gen không được xác định rõ với loại II hoặc III, xem anova (lm1) bên dưới so với lm2 hoặc Anova.

Dữ liệu ví dụ:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. lm1 với SS loại I đối với tôi dường như là cách thích hợp để phân tích dữ liệu theo lý thuyết nền. Là giả định của tôi đúng?
  2. Tôi đã quen với việc thao túng một cách rõ ràng các thiết kế trực giao, trong đó những vấn đề này thường không xuất hiện. Có khó thuyết phục người đánh giá rằng đây là quy trình tốt nhất (giả sử điểm 1 là chính xác) trong bối cảnh của một trường trung tâm SPSS?
  3. Và những gì để báo cáo trong phần thống kê? Bất kỳ phân tích thêm, hoặc ý kiến ​​nên đi vào?

Thật đáng ngạc nhiên khi biết rằng ai đó sử dụng SPSS chỉ biết SS loại III hoặc II. Và bạn có vẻ như vậy.
ttnphns

2
Chà, tôi đã từng có khoảng cách kiến ​​thức tương tự mà tôi đang đề cập đến trong câu hỏi của mình. Nó dường như phản ánh nhiều hơn về sở thích, kiến ​​thức của mọi người và cách họ được giới thiệu về phần mềm hơn là bản thân phần mềm. Nhưng các tùy chọn mặc định cũng đóng một phần lớn với tùy chọn loại III mặc định được sử dụng trong SPSS.
Matt Albrecht

Dường như bạn đang nói rằng bạn có một cách để nhập 2 dự đoán theo một thứ tự cụ thể bằng thủ tục anova của SPSS (unianova?). Tôi chỉ biết một cách để xác định thứ tự bằng cách chuyển sang thủ tục hồi quy. Làm thế nào để bạn thực hiện điều này?
rolando2

Câu trả lời:


8

Cộng tác giữa các yếu tố khá phức tạp. Ví dụ cổ điển là ví dụ bạn nhận được khi nhóm và giả mã hóa ba biến liên tục 'tuổi', 'thời gian' và 'năm'. Nó được phân tích trong:

Các hệ số bạn nhận được, sau khi xóa bốn (không phải ba) tham chiếu chỉ được xác định theo xu hướng tuyến tính không xác định. Điều này có thể được phân tích vì cộng tuyến phát sinh từ một cộng tuyến đã biết trong các biến nguồn (tuổi + năm = thời gian).

Một số công việc cũng đã được thực hiện về sự cộng tác giả giữa hai yếu tố. Nó đã được phân tích trong:

Kết quả cuối cùng là sự cộng tác giữa các biến phân loại có nghĩa là tập dữ liệu phải được chia thành các phần bị ngắt kết nối, với mức tham chiếu trong mỗi thành phần. Các hệ số ước tính từ các thành phần khác nhau không thể được so sánh trực tiếp.

Đối với các cộng tuyến phức tạp hơn giữa ba hoặc nhiều yếu tố, tình huống rất phức tạp. Có tồn tại các thủ tục để tìm các hàm ước tính, nghĩa là các tổ hợp tuyến tính của các hệ số có thể hiểu được, ví dụ như trong:

  • "Về khả năng kết nối của các thiết kế cột hàng" của Godolphin và Godolphin trong Utilitas Mathematica (60) Trang 51-65

Nhưng theo hiểu biết của tôi, không có viên đạn bạc chung nào để xử lý các cộng tuyến như vậy theo cách trực quan tồn tại.


1

Sau khi trò chuyện với một số người thống kê mọi người xung quanh. Có vẻ như loại câu hỏi này có thể không phải là câu hỏi chính xác nhất để trả lời. Sử dụng ANOVA (hoặc các phương pháp tương tự) để điều tra các tương tác di truyền và chẩn đoán về các biện pháp tâm thần kinh khi chúng có mối tương quan cao là một câu hỏi khó. Thay vào đó, tôi đã được chỉ ra để kiểm tra cấu trúc của dữ liệu với mô hình phương trình cấu trúc.

Câu trả lời này sẽ được cập nhật khi tôi tìm hiểu thêm về SEM.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.