Các mô hình log-linear có thể là một lựa chọn khác để xem xét, nếu bạn muốn nghiên cứu cấu trúc dữ liệu hai chiều của mình.
Nếu bạn giả sử rằng hai mẫu được khớp (nghĩa là có một số loại phụ thuộc giữa hai loạt địa điểm) và bạn xem xét rằng dữ liệu thực sự là số đếm có thể được coi là điểm số hoặc phản hồi theo thứ tự (như được đề xuất bởi @caracal ), sau đó bạn cũng có thể xem xét các mô hình cận biên cho các cặp khớp, thường liên quan đến việc phân tích bảng dự phòng vuông. Nó có thể không nhất thiết là trường hợp bạn kết thúc với Bảng vuông như vậy, nhưng chúng tôi cũng có thể quyết định giới hạn trên cho số lượng, ví dụ như câu bị động. Dù sao, các mô hình cho các cặp khớp được giải thích rõ trong Chương 10 của Agresti, Phân tích dữ liệu phân loại ; các mô hình có liên quan cho các thể loại thứ tự trong các bảng vuông đang thử nghiệm tính đối xứng(sự khác biệt về tác động của một loại từ trường hợp này sang trường hợp khác theo xu hướng tuyến tính trong điểm số của thể loại), tính đối xứng có điều kiện ( hoặc , ) và liên kết bán đồng nhất ( liên kết tuyến tính theo tuyến tính ngoài đường chéo chính, trong trường hợp điểm số bằng nhau có nghĩa là liên kết cục bộ thống nhất). Phép đối xứng chuẩn (OQS) là một trường hợp đặc biệt của mô hình logit tuyến tính, và nó có thể được so sánh với một mô hình đơn giản hơn, trong đó chỉ có tính đồng nhất cận biên với phép thử LR, bởi vì tính đối xứng bậc hai + tính đồng nhất cận biên tính đối xứng biên.πab<πabπab>πab∀a,b=
Theo ký hiệu của Agresti (trang 429), chúng tôi xem xét đã đặt hàng điểm cho biến (theo hàng) và biến (trong cột); hoặc biểu thị bất kỳ hàng hoặc cột. Mô hình OQS đọc như mô hình log-linear sau:u1≤⋯≤uIXYab
logμab=λ+λa+λb+βub+λab
trong đó cho tất cả . So với mô hình QS thông thường cho dữ liệu danh nghĩa là , trong đó có nghĩa là độc lập giữa hai biến , trong mô hình OQS, chúng tôi áp đặt (từ đó đưa ra ý tưởng về xu hướng tuyến tính). Biểu diễn logit tương đương là , cho .λab=λbaa<blogμab=λ+λXa+λYb+λabλab=0λYb−λXb=βublog(πab/πba)=β(ub−ua)a≤b
Nếu , thì chúng ta có tính đối xứng là trường hợp đặc biệt của mô hình này. Nếu , thì chúng ta có các lề được sắp xếp ngẫu nhiên, đó là có nghĩa là giá trị trung bình của cột cao hơn so với trung bình hàng (và càng lớn, sự khác biệt giữa hai phân phối xác suất chung càng lớn và là, điều này sẽ được phản ánh trong sự khác biệt giữa các phân phối biên của hàng và cột). Một thử nghiệm tương ứng với một thử nghiệm về tính đồng nhất cận biên. Việc giải thích ước tính rất đơn giản: xác suất ước tính cho điểm trên biến làβ ≠ 0 β > 0 | β | π một b π b một β = 0 β X x Y exp ( β x ) ββ=0β≠0β>0|β|πabπbaβ=0βXx đơn vị dương hơn số điểm trên là với xác suất ngược. Trong trường hợp cụ thể của bạn, điều đó có nghĩa là có thể cho phép định lượng ảnh hưởng của một người nói cụ thể đối với người khác.Yexp(β^x)β^
Đáng chú ý, tất cả mã R đã được Laura Thompson cung cấp trong Hướng dẫn sử dụng S của cô để phân tích dữ liệu phân loại của Agresti .
Sau đây, tôi cung cấp một số mã R ví dụ để bạn có thể chơi với nó trên dữ liệu của riêng bạn. Vì vậy, hãy thử tạo một số dữ liệu trước:
set.seed(56)
d <- as.data.frame(replicate(2, rpois(420, 1.5)))
colnames(d) <- paste("S", 1:2, sep="")
d.tab <- table(d$S1, d$S2, dnn=names(d)) # or xtabs(~S1+S2, d)
library(vcdExtra)
structable(~S1+S2, data=d)
# library(ggplot2)
# ggfluctuation(d.tab, type="color") + labs(x="S1", y="S2") + theme_bw()
Trực quan, phân loại chéo trông như thế này:
S2 0 1 2 3 4 5 6
S1
0 17 35 31 8 7 3 0
1 41 41 30 23 7 2 0
2 19 43 18 18 5 0 1
3 11 21 9 15 2 1 0
4 0 3 4 1 0 0 0
5 1 0 0 2 0 0 0
6 0 0 0 1 0 0 0
Bây giờ, chúng ta có thể phù hợp với mô hình OQS. Không giống như Laura Thompson đã sử dụng glm()
hàm cơ sở và ma trận thiết kế tùy chỉnh cho tính đối xứng, chúng ta có thể dựa vào gói gnm ; tuy nhiên, chúng ta cần thêm một vectơ cho điểm số để ước tính trong mô hình trên.β
library(gnm)
d.long <- data.frame(counts=c(d.tab), S1=gl(7,1,7*7,labels=0:6),
S2=gl(7,7,7*7,labels=0:6))
d.long$scores <- rep(0:6, each=7)
summary(mod.oqs <- gnm(counts~scores+Symm(S1,S2), data=d.long,
family=poisson))
anova(mod.oqs)
Ở đây, chúng ta có và do đó, xác suất Loa B đạt 4 điểm khi Loa A đạt 3 điểm là lần xác suất Loa B có điểm 3 trong khi Loa A có điểm của 4.exp(0,123)=1,13β^=0.123exp(0.123)=1.13
Gần đây tôi đã bắt gặp gói catpec R dường như cung cấp các cơ sở tương tự, nhưng tôi đã không thử nó. Có một hướng dẫn tốt tại UseR! 2009 về tất cả những thứ này: Giới thiệu về Mô hình phi tuyến tổng quát trong R , nhưng cũng xem thêm họa tiết đồng bộ, mô hình phi tuyến tổng quát trong R: Tổng quan về gói gnm .
Nếu bạn muốn nắm bắt ý tưởng với dữ liệu thực, có rất nhiều ví dụ với các tập dữ liệu thực trong gói vcdExtra từ Michael Friendly. Về mô hình OQS, Agresti đã sử dụng dữ liệu về Quan hệ tình dục trước hôn nhân và Quan hệ tình dục ngoài hôn nhân (Bảng 10.5, trang 421). Kết quả được thảo luận trong §10.4.7 (trang 430) và được ước tính là -2,86. Mã dưới đây cho phép (một phần được lấy từ sách giáo khoa của Thompson) để tái tạo các kết quả này. Chúng ta sẽ cần phải xem lại các mức yếu tố để đặt cùng một đường cơ sở so với Agresti.β^
table.10.5 <- data.frame(expand.grid(PreSex=factor(1:4),
ExSex=factor(1:4)),
counts=c(144,33,84,126,2,4,14,29,0,2,6,25,0,0,1,5))
table.10.5$scores <- rep(1:4,each=4)
summary(mod.oqs <- gnm(counts~scores+Symm(PreSex,ExSex), data=table.10.5,
family=poisson)) # beta = -2.857
anova(mod.oqs) # G^2(5)=2.10