Có rất nhiều về cộng tác liên quan đến các yếu tố dự đoán liên tục nhưng không nhiều đến mức tôi có thể tìm thấy trên các dự đoán phân loại. Tôi có dữ liệu của loại này minh họa dưới đây.
Yếu tố thứ nhất là một biến số di truyền (số lượng alen), yếu tố thứ hai là một loại bệnh. Rõ ràng các gen đi trước bệnh và là một yếu tố cho thấy các triệu chứng dẫn đến chẩn đoán. Tuy nhiên, một phân tích thường xuyên sử dụng tổng bình phương loại II hoặc III, như thường được thực hiện trong tâm lý với SPSS, bỏ lỡ hiệu ứng. Một loại tổng hợp phân tích hình vuông chọn nó, khi thứ tự thích hợp được nhập vì nó phụ thuộc vào thứ tự. Hơn nữa, có khả năng là các thành phần bổ sung cho quá trình bệnh không liên quan đến gen không được xác định rõ với loại II hoặc III, xem anova (lm1) bên dưới so với lm2 hoặc Anova.
Dữ liệu ví dụ:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 với SS loại I đối với tôi dường như là cách thích hợp để phân tích dữ liệu theo lý thuyết nền. Là giả định của tôi đúng?
- Tôi đã quen với việc thao túng một cách rõ ràng các thiết kế trực giao, trong đó những vấn đề này thường không xuất hiện. Có khó thuyết phục người đánh giá rằng đây là quy trình tốt nhất (giả sử điểm 1 là chính xác) trong bối cảnh của một trường trung tâm SPSS?
- Và những gì để báo cáo trong phần thống kê? Bất kỳ phân tích thêm, hoặc ý kiến nên đi vào?