Trong một hồi quy, thuật ngữ tương tác xóa sạch cả hai hiệu ứng trực tiếp liên quan. Tôi có làm rơi tương tác hoặc báo cáo kết quả không? Sự tương tác không phải là một phần của giả thuyết ban đầu.
Trong một hồi quy, thuật ngữ tương tác xóa sạch cả hai hiệu ứng trực tiếp liên quan. Tôi có làm rơi tương tác hoặc báo cáo kết quả không? Sự tương tác không phải là một phần của giả thuyết ban đầu.
Câu trả lời:
Tôi nghĩ rằng điều này là khó khăn; như bạn gợi ý, có "rủi ro đạo đức" ở đây: nếu bạn chưa xem xét sự tương tác, bạn sẽ được tự do và rõ ràng, nhưng bây giờ bạn có sự nghi ngờ về việc nạo vét dữ liệu nếu bạn bỏ nó.
Chìa khóa có lẽ là một sự thay đổi về ý nghĩa của các hiệu ứng của bạn khi bạn chuyển từ chỉ hiệu ứng chính sang mô hình tương tác. Những gì bạn nhận được cho "các hiệu ứng chính" phụ thuộc rất nhiều vào cách điều trị và độ tương phản của bạn được mã hóa. Trong R, mặc định là điều trị tương phản với các cấp yếu tố đầu tiên (những yếu tố có tên đầu tiên theo thứ tự bảng chữ cái trừ khi bạn đã hết cách để mã hóa chúng theo cách khác nhau) làm các mức cơ sở.
Nói (để đơn giản) rằng bạn có hai cấp độ, 'kiểm soát' và 'trt', cho từng yếu tố. Không có sự tương tác, ý nghĩa của tham số 'v1.trt' (giả sử điều trị tương phản như mặc định trong R) là "sự khác biệt trung bình giữa nhóm 'v1.control' và 'v1.trt'; ý nghĩa của tham số 'v2.trt' là "sự khác biệt trung bình giữa 'v2.control' và 'v2.trt'".
Với sự tương tác, 'v1.trt' là sự khác biệt trung bình giữa 'v1.control' và 'v1.trt' trong nhóm 'v2.control' và tương tự 'v2.trt' là sự khác biệt trung bình giữa các nhóm v2 trong Nhóm 'v1.control'. Do đó, nếu bạn có hiệu quả điều trị khá nhỏ trong mỗi nhóm đối chứng, nhưng hiệu quả lớn trong các nhóm điều trị, bạn có thể dễ dàng nhìn thấy những gì bạn đang thấy.
Tuy nhiên, cách duy nhất tôi có thể thấy điều này xảy ra mà không có thuật ngữ tương tác đáng kể, tuy nhiên, là nếu tất cả các hiệu ứng khá yếu (do đó, điều bạn thực sự muốn nói là "hiệu ứng biến mất" là bạn đã đi từ p = 0,06 đến p = 0,04, trên dòng ý nghĩa kỳ diệu).
Một khả năng khác là bạn đang 'sử dụng quá nhiều bậc tự do' - nghĩa là các ước tính tham số không thực sự thay đổi nhiều, nhưng thuật ngữ lỗi còn lại được thổi phồng đủ bằng cách ước tính thêm 4 [= (2- 1) * (5-1)] tham số mà các thuật ngữ quan trọng của bạn trở nên không đáng kể. Một lần nữa, tôi chỉ mong đợi điều này với một tập dữ liệu nhỏ / hiệu ứng tương đối yếu.
Một giải pháp khả thi là chuyển sang độ tương phản, mặc dù điều này cũng rất tế nhị - bạn phải tin rằng 'hiệu ứng trung bình' có ý nghĩa trong trường hợp của bạn. Điều tốt nhất là vẽ biểu đồ dữ liệu của bạn và xem xét các hệ số và hiểu những gì đang xảy ra theo các tham số ước tính.
Mong rằng sẽ giúp.
Điều này có thể được viết lại
đó là, nếu bạn thể hiện lại các biến của mình dưới dạng
sau đó mô hình là tuyến tính và có khả năng có phần dư homoscedastic:
Phân tích này cho thấy làm thế nào có thể - thậm chí có khả năng trong một số ứng dụng - có một mô hình trong đó các hiệu ứng duy nhất dường như là tương tác. Điều này phát sinh khi các biến (độc lập, phụ thuộc hoặc cả hai) được trình bày cho bạn ở dạng không phù hợp và logarit của chúng là mục tiêu hiệu quả hơn cho mô hình hóa. Các phân phối của các biến và phần dư ban đầu cung cấp các manh mối cần thiết để xác định xem đây có phải là trường hợp không: phân phối sai của các biến và độ không đồng nhất của phần dư (cụ thể là có các phương sai tỷ lệ thuận với các giá trị dự đoán) là các chỉ số.
Điều này thường giới thiệu tính đa hình cao vì sản phẩm sẽ tương quan mạnh với cả hai biến ban đầu. Với tính đa hướng, các ước tính tham số riêng lẻ phụ thuộc mạnh mẽ vào các biến khác được xem xét - như trong trường hợp của bạn. Là một biện pháp đối trọng, việc định tâm các biến thường làm giảm tính đa hình khi xem xét sự tương tác.
Tôi không chắc chắn nếu điều này áp dụng trực tiếp vào trường hợp của bạn vì bạn dường như có các dự đoán phân loại nhưng sử dụng thuật ngữ "hồi quy" thay vì "ANOVA". Tất nhiên trường hợp sau về cơ bản là cùng một mô hình, nhưng chỉ sau khi chọn sơ đồ mã hóa tương phản như Ben giải thích.
Đây có thể là một vấn đề về giải thích, một sự hiểu lầm về cái gọi là hệ số "hiệu ứng trực tiếp" thực sự là gì.
Trong các mô hình hồi quy có các biến dự báo liên tục và không có thuật ngữ tương tác - nghĩa là không có thuật ngữ nào được xây dựng như sản phẩm của các thuật ngữ khác - mỗi hệ số của biến là độ dốc của bề mặt hồi quy theo hướng của biến đó. Nó là hằng số, bất kể giá trị của các biến và rõ ràng là thước đo tác động của biến đó.
Trong các mô hình có tương tác - nghĩa là, với các thuật ngữ được xây dựng như các sản phẩm của các thuật ngữ khác - việc giải thích đó có thể được thực hiện mà không cần chứng nhận thêm cho các biến không liên quan đến bất kỳ tương tác nào. Hệ số của một biến mà được tham gia vào các tương tác là độ dốc của bề mặt hồi quy theo hướng biến mà khi các giá trị của tất cả các biến tương tác với các biến trong câu hỏi là zero , và thử nghiệm ý nghĩa của hệ số dùng để chỉ độ dốc của bề mặt hồi quy chỉ trong vùng đó của không gian dự đoán. Do không có yêu cầu thực sự có dữ liệu trong vùng không gian đó, nên hệ số hiệu ứng trực tiếp rõ ràng có thể có chút tương đồng với độ dốc của bề mặt hồi quy trong khu vực của không gian dự đoán nơi dữ liệu được quan sát thực sự. Không có "hiệu quả trực tiếp" thực sự trong những trường hợp như vậy; thay thế tốt nhất có lẽ là "hiệu ứng trung bình": độ dốc của bề mặt hồi quy theo hướng của biến được đề cập, được lấy tại mỗi điểm dữ liệu và tính trung bình trên tất cả các điểm dữ liệu. Để biết thêm về điều này, hãy xem Tại sao các biến độc lập tập trung có thể thay đổi các hiệu ứng chính với kiểm duyệt?