Làm thế nào để xử lý nhiều phép đo cho mỗi người tham gia, với dữ liệu phân loại?


8

Tôi đã thực hiện một thử nghiệm trong đó tôi đã thu thập các phép đo từ một số người tham gia. Mỗi điểm dữ liệu có liên quan có hai biến, cả hai đều phân loại: trên thực tế, mỗi biến có hai giá trị có thể (câu trả lời cho hai câu hỏi có / không). Tôi muốn một thử nghiệm giả thuyết thống kê để kiểm tra xem có vẻ như có mối tương quan giữa hai biến này không.

Nếu tôi có một điểm dữ liệu cho mỗi người tham gia, tôi có thể sử dụng thử nghiệm chính xác Fisher về kết quả bảng ngẫu nhiên. Tuy nhiên, tôi có nhiều điểm dữ liệu cho mỗi người tham gia. Do đó, thử nghiệm chính xác của Fisher dường như không thể áp dụng được, bởi vì các điểm dữ liệu từ một người tham gia không độc lập. Chẳng hạn, nếu tôi có 10 điểm dữ liệu từ Alice, những điểm đó có thể không độc lập, bởi vì tất cả chúng đều đến từ cùng một người. Thử nghiệm chính xác của Fisher giả định rằng tất cả các điểm dữ liệu được lấy mẫu độc lập, do đó, các giả định về thử nghiệm chính xác của Fisher không được thỏa mãn và sẽ không phù hợp để sử dụng trong cài đặt này (nó có thể đưa ra các báo cáo không chính đáng về ý nghĩa thống kê).2×2

Có kỹ thuật để xử lý tình huống này?


Phương pháp tiếp cận tôi đã xem xét:

Một thay thế hợp lý là tổng hợp tất cả dữ liệu từ mỗi người tham gia thành một số duy nhất, sau đó sử dụng một số thử nghiệm độc lập khác. Chẳng hạn, với mỗi người tham gia, tôi có thể đếm tỷ lệ câu trả lời Có cho câu hỏi đầu tiên và tỷ lệ câu trả lời Có cho câu hỏi thứ hai, cho tôi hai số thực cho mỗi người tham gia, sau đó sử dụng bài kiểm tra thời điểm sản phẩm của Pearson để kiểm tra tương quan giữa hai số này. Tuy nhiên, tôi không chắc liệu đây có phải là một cách tiếp cận tốt hay không. (Ví dụ: tôi lo lắng rằng tính trung bình / đếm đang làm mất dữ liệu và điều này có thể bị mất sức mạnh, do sự tổng hợp; hoặc các dấu hiệu phụ thuộc có thể biến mất sau khi tổng hợp.)

Tôi đã đọc về các mô hình đa cấp, có vẻ như chúng được dự định xử lý tình huống này khi các biến cơ bản liên tục (ví dụ: số thực) và khi mô hình tuyến tính phù hợp. Tuy nhiên, ở đây tôi có hai biến phân loại (câu trả lời cho Có / Không có câu hỏi), vì vậy chúng dường như không áp dụng ở đây. Có một số kỹ thuật tương đương có thể áp dụng cho dữ liệu phân loại?

Tôi cũng đã đọc một chút về thiết kế các biện pháp lặp đi lặp lại trên Wikipedia, nhưng bài viết trên Wikipedia tập trung vào các nghiên cứu theo chiều dọc. Điều đó dường như không thể áp dụng ở đây: nếu tôi hiểu chính xác, các biện pháp lặp đi lặp lại dường như tập trung vào các hiệu ứng do thời gian trôi qua (trong đó sự tiến triển của thời gian ảnh hưởng đến các biến). Tuy nhiên, trong trường hợp của tôi, thời gian trôi qua không nên có bất kỳ ảnh hưởng nào. Đừng nói với tôi nếu tôi hiểu lầm.

Về sự phản ánh hơn nữa, một cách tiếp cận khác xảy ra với tôi là sử dụng một bài kiểm tra hoán vị. Đối với mỗi người tham gia, chúng tôi có thể hoán vị ngẫu nhiên câu trả lời của họ cho câu hỏi 1 và (độc lập) hoán vị ngẫu nhiên câu trả lời của họ cho câu hỏi 2, sử dụng một hoán vị khác nhau cho mỗi người tham gia. Tuy nhiên, đối với tôi không rõ thống kê kiểm tra nào sẽ phù hợp ở đây, để đo lường kết quả nào "ít nhất là cực đoan" như kết quả quan sát được.

Liên quan: Làm thế nào để xử lý chính xác nhiều điểm dữ liệu cho mỗi đối tượng (nhưng cũng tập trung vào các mô hình tuyến tính cho các biến liên tục, không phải dữ liệu phân loại), Các phép đo được thực hiện trên cùng một bệnh nhân? (tương tự)


Còn bài kiểm tra của McNemar thì sao? Đây chính xác là những gì nó làm.
StatsStudent

@StatsStudent, bạn có thể giải thích? Tôi không thấy nó áp dụng như thế nào cho tình huống này. Theo "điểm dữ liệu", ý tôi là một bộ chứa câu trả lời cho cả câu hỏi có / không (ví dụ: có, có). Khi tôi đọc về bài kiểm tra của McNemar, nó nói về một điểm dữ liệu duy nhất cho mỗi người tham gia; không phải là trường hợp có nhiều điểm dữ liệu cho mỗi người tham gia (ví dụ: mỗi người tham gia được tiếp xúc nhiều lần và sau mỗi lần tiếp xúc, chúng tôi nhận được câu trả lời cho cả hai câu hỏi có / không).
DW

ab

@StatsStudent, cặp cá nhân? Tôi nghi ngờ tôi phải truyền thông sai. Tôi hỏi một đơn riêng hai câu hỏi và nhận một cặp câu trả lời (nói, Yes, Yes). Nếu đó là tất cả, tôi có thể sử dụng thử nghiệm của McNemar. Nhưng vấn đề khó khăn ở đây là đối với một số cá nhân, tôi đã thực hiện nhiều lần: ví dụ, đối với Alice, tôi đã hỏi cô ấy cặp câu hỏi vào nhiều thời điểm khác nhau và nhận được hai câu trả lời mỗi lần như vậy. Bạn có thể nói rằng một số người tham gia đã nhận được "nhiều lần phơi sáng" (trong đó mỗi lần tiếp xúc là một trường hợp tôi hỏi họ hai câu hỏi và nhận lại hai câu trả lời của họ).
DW

Tôi hiểu rồi! Đó là những gì tôi đã hiểu lầm - xin lỗi tôi đã không hiểu điều đó sớm hơn: bạn có Thứ nguyên thứ ba mà bạn đang thu thập dữ liệu (ví dụ: theo thời gian). Trong trường hợp đó, tôi khuyên bạn nên sử dụng hồi quy logistic với các phương trình ước lượng tổng quát hoặc mô hình hỗn hợp. Các mô hình dọc có giá trị ở đây, mặc dù chiều thứ ba của bạn không chính xác về thời gian. Bạn cũng có thể phân tầng các bảng của mình trên chiều thứ ba và thực hiện McNemar trên mỗi chiều.
StatsStudent 17/03/2016

Câu trả lời:


0

Bối cảnh câu trả lời của tôi

Tôi đã tự nghiên cứu câu hỏi này ngày hôm qua (phần liên quan đến khả năng sử dụng các mô hình hỗn hợp ở đây). Tôi không biết xấu hổ bỏ đi sự hiểu biết mới mẻ của mình về cách tiếp cận này cho các bảng 2x2 và chờ đợi các đồng nghiệp tiên tiến hơn để sửa chữa những sai lầm hoặc hiểu lầm của tôi. Câu trả lời của tôi sau đó sẽ dài và quá mô phạm (ít nhất là cố gắng là mô phạm) để giúp đỡ nhưng cũng phơi bày những sai sót của riêng tôi. Trước hết, tôi phải nói rằng tôi đã chia sẻ sự nhầm lẫn của bạn mà bạn đã nêu ở đây.

Tôi đã đọc về các mô hình đa cấp, có vẻ như chúng được dự định xử lý tình huống này khi các biến cơ bản liên tục (ví dụ: số thực) và khi mô hình tuyến tính phù hợp

Tôi đã nghiên cứu tất cả các ví dụ từ bài viết này - mô hình hiệu ứng ngẫu nhiên của dữ liệu phản hồi phân loại . Bản thân tiêu đề mâu thuẫn với suy nghĩ này. Đối với vấn đề của chúng tôi với các bảng 2x2 với phép đo lặp lại, ví dụ trong phần 3.6 là nguyên nhân cho cuộc thảo luận của chúng tôi. Điều này chỉ mang tính tham khảo vì mục tiêu của tôi là giải thích nó. Tôi có thể chỉnh sửa phần này trong tương lai nếu bối cảnh này không còn cần thiết nữa.

Ngươi mâu


πiilogit(πi)=FixedEffectsi+RandomEffecti

RandomEffectiN(0,σ)


πijv

logit(πijv)=βjv+uiv

Về các hiệu ứng cố định

β1v=β2v=β3v...iβjvβvβ1=β2

Về hiệu ứng ngẫu nhiên

uijuiiv uiN(0,σ1)uijN(0,σ2)

Một đề xuất

ui+uivuivuiui

model1<-glmer(yes ~ Question + (1 | Subject/Question ), data = df, family = binomial)
model2<-glmer(yes ~ Question + (1 | Subject:Question ), data = df, family = binomial)
anova(model1,model2) 

(1 | Subject/Question )ui+uiv(1 |Subject:Question)uivanova


Ồ Cảm ơn bạn đã trả lời chi tiết này! Điều này cho tôi nền tảng tuyệt vời. Tuy nhiên, tôi chưa thấy cách sử dụng điều này để kiểm tra xem các câu trả lời cho câu hỏi số 1 có tương quan với câu trả lời cho câu hỏi số 2 hay không. Bạn có thể giải thích làm thế nào để làm điều đó? Tôi thấy làm thế nào để có được một mô hình cho câu trả lời cho câu hỏi số 1; và một mô hình cho câu trả lời cho câu hỏi số 2; nhưng những mô hình đó về cơ bản cho rằng hai câu trả lời là độc lập, trong khi đó trong trường hợp của tôi đó chính xác là những gì tôi muốn kiểm tra.
DW

β1β2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.