Kiểm tra tần số ghép nối để độc lập

Tôi hy vọng điều này không quá cơ bản hoặc dư thừa. Tôi đã tìm kiếm xung quanh để được hướng dẫn nhưng cho đến nay tôi vẫn không chắc chắn về cách tiến hành.

Dữ liệu của tôi bao gồm số lượng cấu trúc cụ thể được sử dụng trong các cuộc hội thoại giữa các cặp người đối thoại. Giả thuyết tôi muốn kiểm tra là như sau: việc sử dụng thường xuyên hơn cấu trúc này bởi một người nói sẽ có xu hướng tăng tần số của cấu trúc bởi người nói khác (nghĩa là đây có thể là bằng chứng về hiệu ứng mồi).

Vì vậy, tôi chỉ có hai vectơ, số đếm cho người nói A và số lượng cho người nói B là các cột và nếu chúng được xếp thành hàng, mỗi hàng đại diện cho một cuộc trò chuyện cụ thể, như sau:

AB
0 1
0 2
1 0
3 1
0 2
2 0
2 1

Có khoảng 420 cuộc hội thoại (hàng). Có rất nhiều số không trong dữ liệu này.

Điều gì sẽ là cách tốt nhất để phân tích dữ liệu này? Tôi đang sử dụng R, nếu điều đó làm cho một sự khác biệt.

Dưới đây là một âm mưu của các tần số (tính). Trục x là số lần sử dụng của người nói A, số lần sử dụng trục y của người nói B. Sự khác biệt giữa các người nói chỉ có nghĩa là người nói A nói trước và không có lý do đặc biệt tại sao họ làm như vậy. Mặt khác, sự phân biệt giữa người nói A và người nói B về cơ bản là vô nghĩa:

XHTML hợp lệ http://phonematic.com/convplot.jpg

Và đây là tần số liên quan đến số lượng câu được nói bởi mỗi người nói trong mỗi cuộc hội thoại. :

XHTML hợp lệ http://phonematic.com/rs_plot.jpg

(Tôi nên đề cập rằng tôi đã loại bỏ các cuộc hội thoại mà không có lượt truy cập nào, tức là {0,0}.)

categorical-data independence

— Alan H.
nguồn

Là mỗi hàng là số lượng của một cấu trúc khác nhau cho cùng một cuộc trò chuyện, hoặc số lượng của cùng một cấu trúc trong các khoảng thời gian khác nhau?

— RockScience

Mỗi hàng là tổng số cách sử dụng của cùng một cấu trúc bởi hai người khác nhau nói chuyện với nhau. Vì vậy, ví dụ, nếu tôi đang đếm câu bị động, thì số trong cột A sẽ là số câu bị động được sử dụng bởi người nói A và số trong cột B số lượng câu bị động được sử dụng bởi người nói B. Vì vậy, mỗi hàng là một cuộc trò chuyện khác Mỗi cuộc trò chuyện có chính xác hai người tham gia.

— Alan H.

Tôi cũng có cùng một dữ liệu được tính tương ứng với số câu được nói bởi mỗi người nói trong mỗi cuộc trò chuyện, nếu điều đó tạo ra sự khác biệt.

— Alan H.

Xin lỗi nếu tôi hơi chậm, nhưng tôi vẫn gặp một số khó khăn để hiểu cấu trúc dữ liệu của bạn. Có phải chỉ có 2 người nói, với 420 phép đo lặp lại được thu thập trên mỗi (ý tôi là một hàng = một loại cuộc hội thoại, nhưng kết quả tương tự được ghi lại, ví dụ: Số câu bị động)? Tôi hỏi điều này bởi vì bạn có một số loại khớp hoặc ghép (giữa các đối tượng A và B), nhưng trong trường hợp sau này, bạn cũng sẽ phải xử lý các phép đo lặp lại và điều này làm cho các mô hình cận biên cho các cặp khớp ít liên quan hơn.

— chl

Không, đây là tất cả các loa khác nhau là tốt. Dữ liệu này được lấy từ một tập hợp các cuộc trò chuyện qua điện thoại được ghi lại. Vì vậy, người nói A trong cuộc trò chuyện 1 không giống với người nói A trong cuộc trò chuyện 2.

— Alan H.

Câu trả lời:

Các mô hình log-linear có thể là một lựa chọn khác để xem xét, nếu bạn muốn nghiên cứu cấu trúc dữ liệu hai chiều của mình.

Nếu bạn giả sử rằng hai mẫu được khớp (nghĩa là có một số loại phụ thuộc giữa hai loạt địa điểm) và bạn xem xét rằng dữ liệu thực sự là số đếm có thể được coi là điểm số hoặc phản hồi theo thứ tự (như được đề xuất bởi @caracal ), sau đó bạn cũng có thể xem xét các mô hình cận biên cho các cặp khớp, thường liên quan đến việc phân tích bảng dự phòng vuông. Nó có thể không nhất thiết là trường hợp bạn kết thúc với Bảng vuông như vậy, nhưng chúng tôi cũng có thể quyết định giới hạn trên cho số lượng, ví dụ như câu bị động. Dù sao, các mô hình cho các cặp khớp được giải thích rõ trong Chương 10 của Agresti, Phân tích dữ liệu phân loại ; các mô hình có liên quan cho các thể loại thứ tự trong các bảng vuông đang thử nghiệm tính đối xứng(sự khác biệt về tác động của một loại từ trường hợp này sang trường hợp khác theo xu hướng tuyến tính trong điểm số của thể loại), tính đối xứng có điều kiện ( hoặc , ) và liên kết bán đồng nhất ( liên kết tuyến tính theo tuyến tính ngoài đường chéo chính, trong trường hợp điểm số bằng nhau có nghĩa là liên kết cục bộ thống nhất). Phép đối xứng chuẩn (OQS) là một trường hợp đặc biệt của mô hình logit tuyến tính, và nó có thể được so sánh với một mô hình đơn giản hơn, trong đó chỉ có tính đồng nhất cận biên với phép thử LR, bởi vì tính đối xứng bậc hai + tính đồng nhất cận biên tính đối xứng biên. $\pi_{ab}<\pi_{ab}$ $\pi_{ab}>\pi_{ab}$ $\forall a,b$ $=$

Theo ký hiệu của Agresti (trang 429), chúng tôi xem xét đã đặt hàng điểm cho biến (theo hàng) và biến (trong cột); hoặc biểu thị bất kỳ hàng hoặc cột. Mô hình OQS đọc như mô hình log-linear sau: $u_1\leq\dots\leq u_I$ $X$ $Y$ $a$ $b$

\log μ_{a b} = λ + λ_{a} + λ_{b} + β u_{b} + λ_{a b}

$\log\mu_{ab}=\lambda+\lambda_a+\lambda_b+\beta u_b +\lambda_{ab}$

trong đó cho tất cả . So với mô hình QS thông thường cho dữ liệu danh nghĩa là , trong đó có nghĩa là độc lập giữa hai biến , trong mô hình OQS, chúng tôi áp đặt (từ đó đưa ra ý tưởng về xu hướng tuyến tính). Biểu diễn logit tương đương là , cho . $\lambda_{ab}=\lambda_{ba}$ $a<b$ $\log\mu_{ab}=\lambda+\lambda_a^X+\lambda_b^Y+\lambda_{ab}$ $\lambda_{ab}=0$ $\lambda_b^Y-\lambda_b^X=\beta u_b$ $\log(\pi_{ab}/\pi_{ba})=\beta(u_b-u_a)$ $a\leq b$

Nếu , thì chúng ta có tính đối xứng là trường hợp đặc biệt của mô hình này. Nếu , thì chúng ta có các lề được sắp xếp ngẫu nhiên, đó là có nghĩa là giá trị trung bình của cột cao hơn so với trung bình hàng (và càng lớn, sự khác biệt giữa hai phân phối xác suất chung càng lớn và là, điều này sẽ được phản ánh trong sự khác biệt giữa các phân phối biên của hàng và cột). Một thử nghiệm tương ứng với một thử nghiệm về tính đồng nhất cận biên. Việc giải thích ước tính rất đơn giản: xác suất ước tính cho điểm trên biến là $\beta=0$ $\beta\neq 0$ $\beta>0$ $|\beta|$ $\pi_{ab}$ $\pi_{ba}$ $\beta=0$ $\beta$ $X$ $x$ đơn vị dương hơn số điểm trên là với xác suất ngược. Trong trường hợp cụ thể của bạn, điều đó có nghĩa là có thể cho phép định lượng ảnh hưởng của một người nói cụ thể đối với người khác. $Y$ $\exp(\hat\beta x)$ $\hat\beta$

Đáng chú ý, tất cả mã R đã được Laura Thompson cung cấp trong Hướng dẫn sử dụng S của cô để phân tích dữ liệu phân loại của Agresti .

Sau đây, tôi cung cấp một số mã R ví dụ để bạn có thể chơi với nó trên dữ liệu của riêng bạn. Vì vậy, hãy thử tạo một số dữ liệu trước:

set.seed(56)
d <- as.data.frame(replicate(2, rpois(420, 1.5)))
colnames(d) <- paste("S", 1:2, sep="")
d.tab <- table(d$S1, d$S2, dnn=names(d)) # or xtabs(~S1+S2, d)
library(vcdExtra)
structable(~S1+S2, data=d)
# library(ggplot2)
# ggfluctuation(d.tab, type="color") + labs(x="S1", y="S2") + theme_bw()

Trực quan, phân loại chéo trông như thế này:

   S2  0  1  2  3  4  5  6
S1                        
0     17 35 31  8  7  3  0
1     41 41 30 23  7  2  0
2     19 43 18 18  5  0  1
3     11 21  9 15  2  1  0
4      0  3  4  1  0  0  0
5      1  0  0  2  0  0  0
6      0  0  0  1  0  0  0

Bây giờ, chúng ta có thể phù hợp với mô hình OQS. Không giống như Laura Thompson đã sử dụng glm()hàm cơ sở và ma trận thiết kế tùy chỉnh cho tính đối xứng, chúng ta có thể dựa vào gói gnm ; tuy nhiên, chúng ta cần thêm một vectơ cho điểm số để ước tính trong mô hình trên. $\beta$

library(gnm)
d.long <- data.frame(counts=c(d.tab), S1=gl(7,1,7*7,labels=0:6),
                     S2=gl(7,7,7*7,labels=0:6))
d.long$scores <- rep(0:6, each=7)
summary(mod.oqs <- gnm(counts~scores+Symm(S1,S2), data=d.long, 
                       family=poisson))
anova(mod.oqs)

Ở đây, chúng ta có và do đó, xác suất Loa B đạt 4 điểm khi Loa A đạt 3 điểm là lần xác suất Loa B có điểm 3 trong khi Loa A có điểm của 4. $\hat\beta=0.123$ $\exp(0.123)=1.13$

Gần đây tôi đã bắt gặp gói catpec R dường như cung cấp các cơ sở tương tự, nhưng tôi đã không thử nó. Có một hướng dẫn tốt tại UseR! 2009 về tất cả những thứ này: Giới thiệu về Mô hình phi tuyến tổng quát trong R , nhưng cũng xem thêm họa tiết đồng bộ, mô hình phi tuyến tổng quát trong R: Tổng quan về gói gnm .

Nếu bạn muốn nắm bắt ý tưởng với dữ liệu thực, có rất nhiều ví dụ với các tập dữ liệu thực trong gói vcdExtra từ Michael Friendly. Về mô hình OQS, Agresti đã sử dụng dữ liệu về Quan hệ tình dục trước hôn nhân và Quan hệ tình dục ngoài hôn nhân (Bảng 10.5, trang 421). Kết quả được thảo luận trong §10.4.7 (trang 430) và được ước tính là -2,86. Mã dưới đây cho phép (một phần được lấy từ sách giáo khoa của Thompson) để tái tạo các kết quả này. Chúng ta sẽ cần phải xem lại các mức yếu tố để đặt cùng một đường cơ sở so với Agresti. $\hat\beta$

table.10.5 <- data.frame(expand.grid(PreSex=factor(1:4),
                                     ExSex=factor(1:4)),
                         counts=c(144,33,84,126,2,4,14,29,0,2,6,25,0,0,1,5))
table.10.5$scores <- rep(1:4,each=4)
summary(mod.oqs <- gnm(counts~scores+Symm(PreSex,ExSex), data=table.10.5, 
                       family=poisson)) # beta = -2.857
anova(mod.oqs) # G^2(5)=2.10

— chl
nguồn

Wow, điều này có vẻ thực sự hữu ích. Tôi sẽ có được một bản sao của cuốn sách này ngay khi tôi có thể, vì mọi người dường như đang trích dẫn nó. Trong khi đó, chỉ là một câu hỏi ngây thơ: những mô hình này có thể xử lý một số hiệu ứng ngẫu nhiên tùy ý không? Tôi nghĩ rằng tôi cần 3 trong mô hình của tôi.

— Alan H.

@Alan Hãy lưu ý rằng chúng tôi (@caracal và tôi) không trích dẫn cùng một cuốn sách. CDA là bản hoàn chỉnh hơn, nhưng sách giáo khoa của Laura Thompson đã bao gồm khoảng 10 trang tóm tắt cho mỗi chương. Nhìn vào sách giáo khoa của cô ấy đầu tiên. Tôi nghĩ rằng ICDA có sẵn trên sách Google.

— chl

Typo trong định nghĩa đối xứng có điều kiện? hoặc ,

π_{a b} < π_{b a}

$\pi_{ab}<\pi_{ba}$

π_{a b} > π_{b a}

$\pi_{ab}>\pi_{ba}$

\forall a < b

$\forall a<b$

— Scortchi - Tái lập Monica

Có vẻ như bạn đã đặt hàng dữ liệu phân loại, do đó tôi đề xuất một thử nghiệm tuyến tính theo tuyến tính như được mô tả bởi Agresti (2007, p229 ff). Chức năng lbl_test()của gói cointhực hiện nó trong R.

Agresti, A. (2007). Giới thiệu về phân tích dữ liệu phân loại. Tái bản lần 2 Hoboken, New Jersey: John Wiley & Sons. Hoboken, NJ: Wiley.

— caracal
nguồn

Tôi có thể sẽ bắt đầu với một phân tích tương quan xếp hạng .
Vấn đề là bạn có thể có mối tương quan rất thấp vì các hiệu ứng bạn đang cố gắng nắm bắt là nhỏ.

Cả hai hệ số tương quan Kendall và Spearman đều được thực hiện trong R trong

cor(x=A, y=B, method = "spearman")  
cor(x=A, y=B, method = "kendall")

— RockScience
nguồn

Cả hai đều giả sử các biến liên tục, do đó xác suất quan hệ trong một mẫu là . Với dữ liệu đã cho, sẽ có rất nhiều mối quan hệ.

0

$0$

— caracal

Tôi đã thử điều này. Nhưng với rất nhiều số 0 tôi không biết phải làm gì với nó. Tôi đã cố gắng loại trừ bất kỳ cuộc hội thoại nào trong đó một trong hai người nói không sử dụng bất kỳ cấu trúc nào trong số này (nghĩa là điểm dữ liệu sẽ nằm dọc theo trục), nhưng kết quả tương quan Spearman không đáng kể (và hệ số rất nhỏ) ..

— Alan H.