Thực hành tốt nhất trong việc xác định hiệu ứng tương tác là gì?


35

Khác với việc kiểm tra theo nghĩa đen từng kết hợp có thể của (các) biến trong một mô hình ( x1:x2hoặc x1*x2 ... xn-1 * xn). Làm thế nào để bạn xác định nếu một tương tác NÊN hoặc COULD tồn tại giữa các biến độc lập (hy vọng) của bạn?

Thực hành tốt nhất trong nỗ lực xác định các tương tác là gì? Có một kỹ thuật đồ họa mà bạn có thể hoặc sử dụng?


Bạn có thể cho chúng tôi biết một chút về dữ liệu của bạn? kích thước (cf câu trả lời của tôi) và bản chất (cf câu trả lời của Gavin)
robin girard

@Robin: Hãy cho anh ấy thời gian ra khỏi giường, Brandon đang ở Toronto ;-)
Phục hồi Monica - G. Simpson

1
@Robin, tôi muốn giữ cho nó chung chung hơn. Nếu, trong phản hồi của bạn, bạn đang cung cấp một phương pháp yêu cầu giả định về kích thước hoặc tính chất của dữ liệu, vui lòng nêu rõ. Vấn đề tôi gặp phải là một số nhiệm vụ mô hình hóa khác nhau, tất cả đều có dữ liệu khác nhau. Vì vậy, trong trường hợp này, tôi đang tìm kiếm khuyến nghị chung về việc xác định các hiệu ứng tương tác.
Brandon Bertelsen

Câu trả lời:


20

Cox và Wermuth (1996) hoặc Cox (1984) đã thảo luận về một số phương pháp để phát hiện các tương tác. Vấn đề thường là làm thế nào chung các điều khoản tương tác nên được. Về cơ bản, chúng tôi (a) phù hợp (và kiểm tra) tất cả các thuật ngữ tương tác bậc hai, mỗi lần một và (b) vẽ các giá trị p tương ứng của chúng (nghĩa là các số hạng dưới dạng hàm của ). Sau đó, ý tưởng là xem xét có nên giữ lại một số thuật ngữ tương tác nhất định hay không: Theo giả định rằng tất cả các thuật ngữ tương tác đều không có giá trị, việc phân phối các giá trị p phải đồng nhất (hoặc tương đương, các điểm trên biểu đồ phân tán phải được phân phối gần đúng một dòng đi qua gốc).1-p

Bây giờ, như @Gavin đã nói, việc điều chỉnh nhiều tương tác (nếu không phải tất cả) có thể dẫn đến quá mức, nhưng nó cũng vô dụng theo một nghĩa nào đó (một số thuật ngữ tương tác bậc cao thường không có ý nghĩa gì cả). Tuy nhiên, điều này có liên quan đến việc giải thích, không phát hiện ra các tương tác và một đánh giá tốt đã được Cox cung cấp trong Giải thích tương tác: Một đánh giá ( Biên niên sử về thống kê ứng dụng 2007, 1 (2), 371 Nott385) - nó bao gồm các tài liệu tham khảo được trích dẫn ở trên. Các dòng nghiên cứu khác đáng để xem xét là nghiên cứu về hiệu ứng epistist trong nghiên cứu di truyền, đặc biệt là các phương pháp dựa trên các mô hình đồ họa (ví dụ: Một phương pháp hiệu quả để xác định các tương tác thống kê trong các mạng liên kết gen ).

Tài liệu tham khảo

  • Cox, DR và ​​Wermuth, N (1996). Phụ thuộc đa biến: Mô hình, Phân tích và Giải thích . Chapman và Hội trường / CRC.
  • Cox, DR (1984). Tương tác . Đánh giá thống kê quốc tế , 52, 1 trận31.

16

Thực hành tốt nhất của tôi sẽ là suy nghĩ về vấn đề cần xử lý trước khi lắp mô hình. Một mô hình hợp lý cho hiện tượng bạn đang nghiên cứu là gì? Phù hợp tất cả các kết hợp có thể của các biến và tương tác có vẻ như nạo vét dữ liệu với tôi.


5
Nghe có vẻ như một nhận xét hoặc là câu trả lời "nghĩ"?
cướp girard

2
@Robin - cái sau. Tôi thấy mô hình thống kê khá khó khăn (Tôi là một nhà sinh thái học ít được đào tạo thống kê chính thức, hầu hết những gì tôi học được là tự học) nhưng sẽ dễ dàng hơn rất nhiều nếu tôi nghĩ về vấn đề trước, xác định điều gì là hợp lý, xây dựng mô hình đó, làm chẩn đoán mô hình của tôi, thử các tương tác trong đó những điều này có ý nghĩa khoa học.
Phục hồi Monica - G. Simpson

2
@Brandon: Nếu thiếu một tương tác, sẽ có các mẫu trong phần dư có điều kiện dựa trên các giá trị của hiệp phương sai. Vẽ các phần dư chống lại các hiệp phương sai có thể giúp xác định nơi tương tác có thể phù hợp.
Phục hồi Monica - G. Simpson

2
@Brandon: Đây là chẩn đoán mô hình chuẩn và kỹ năng vẽ đồ thị khám phá. Tôi sẽ vẽ các phần dư chống lại một trong các hiệp phương sai mà tôi nghĩ có thể là một ứng cử viên cho một tương tác, có điều kiện (theo cách ggplot2 hoặc mạng tinh thể) trên các giá trị của hiệp phương sai mà tôi nghĩ có liên quan đến tương tác. Dán một hoàng thổ mượt mà hơn qua mỗi bảng để xem có mẫu nào không. Phụ thuộc vào loại biến số đồng biến của bạn.
Phục hồi Monica - G. Simpson

2
Nạo vét dữ liệu? Nếu bạn tra tấn dữ liệu đủ lâu, nó sẽ thú nhận ...
Tò mò

16

Lắp mô hình cây (tức là sử dụng R), sẽ giúp bạn xác định các tương tác phức tạp giữa các biến giải thích. Đọc ví dụ ở trang 30 tại đây .


Rất đơn giản và rất hữu ích. Cảm ơn bạn đã tham khảo văn bản của Crawley!
Brandon Bertelsen

Hãy cẩn thận - bạn không thể dễ dàng phù hợp với các loại tương tác đó trong mô hình tuyến tính. Các tương tác chỉ xảy ra trong một nhánh của cây (hoặc một phần của). Bạn cần rất nhiều dữ liệu để sử dụng các loại công cụ này trong dữ liệu thế giới thực.
Phục hồi Monica - G. Simpson

3
Như @Gavin đã nói, một trong những cạm bẫy tiềm tàng là cây quyết định cần cỡ mẫu lớn và khá không ổn định (đó là một trong những lý do đóng bao và rừng ngẫu nhiên được đề xuất là phương án thay thế khả thi). Một vấn đề khác là không rõ liệu chúng ta tìm kiếm các hiệu ứng tương tác bậc hai hay bậc cao hơn. Trong trường hợp trước, GIỎ HÀNG không phải là một giải pháp. Trong mọi trường hợp, tôi sẽ thấy rất nghi ngờ bất kỳ sự giải thích nào về sự tương tác giữa 6 biến trong bất kỳ loại nghiên cứu nào (quan sát hoặc kiểm soát).
chl

7

Tôi sẽ mở đầu câu trả lời này vì tôi hoàn toàn đồng ý với Gavin và nếu bạn quan tâm đến việc phù hợp với bất kỳ loại mô hình nào thì nó sẽ phản ánh hiện tượng đang nghiên cứu. Vấn đề là gì với logic của việc xác định bất kỳ và tất cả các hiệu ứng (và điều mà Gavin đề cập đến khi anh ấy nói rằng việc nạo vét dữ liệu) là bạn có thể điều chỉnh số lượng tương tác vô hạn hoặc các thuật ngữ bậc hai cho các biến hoặc biến đổi cho dữ liệu của bạn và bạn chắc chắn sẽ tìm thấy các hiệu ứng "đáng kể" cho một số biến thể của dữ liệu của bạn.

Như chl tuyên bố, các hiệu ứng tương tác bậc cao này thực sự không có bất kỳ sự giải thích nào, và thường thì ngay cả các tương tác bậc thấp hơn cũng không có ý nghĩa gì. Nếu bạn quan tâm đến việc phát triển một mô hình nhân quả, bạn chỉ nên đưa vào các thuật ngữ mà bạn tin rằng có thể phù hợp với biến phụ thuộc của bạn A tiên nghiệm để phù hợp với mô hình của bạn.

Nếu bạn tin rằng họ có thể tăng sức mạnh dự đoán cho mô hình của bạn, bạn nên tìm kiếm tài nguyên về các kỹ thuật chọn mô hình để ngăn chặn quá phù hợp với mô hình của bạn.


7

n

n

Nếu bạn muốn biết tỷ lệ phương sai này có đáng kể hay không, bạn sẽ phải làm mô hình hóa (đại khái, bạn cần biết số bậc tự do của mô hình của mình để so sánh với phương sai).

Là các biến của bạn rời rạc hoặc liên tục? Bị ràng buộc hay không thực sự (tức là bạn không biết tối đa)?


cảm ơn đã hướng đến các chỉ số Sobol. Một lần nữa, tôi muốn xác định rằng tôi đang tìm kiếm một vị tướng hơn là một câu trả lời cụ thể ở đây. Tôi không hỏi về một bộ dữ liệu cụ thể mà chỉ cố gắng giải thích một vấn đề tôi gặp phải với một số bộ khác nhau.
Brandon Bertelsen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.