Tại sao mã hóa điều trị dẫn đến một mối tương quan giữa độ dốc ngẫu nhiên và đánh chặn?


7

Xem xét một thiết kế giai thừa trong chủ đề và bên trong vật phẩm trong đó biến điều trị thử nghiệm có hai cấp độ (điều kiện). Hãy m1là mô hình tối đa và mô hình m2không tương quan ngẫu nhiên.

m1: y ~ condition + (condition|subject) + (condition|item)
m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item)

Dale Barr nêu rõ những điều sau đây cho tình huống này:
Chỉnh sửa (4/20/2018): Như Jake Westfall đã chỉ ra, các tuyên bố sau dường như chỉ đề cập đến các bộ dữ liệu được hiển thị trong Hình 1 và 2 trên trang web này . Tuy nhiên, bài phát biểu vẫn giữ nguyên.

Trong biểu diễn mã hóa sai lệch (điều kiện: -0,5 so với 0,5) m2cho phép phân phối, trong đó các lần chặn ngẫu nhiên của chủ thể không tương thích với độ dốc ngẫu nhiên của chủ thể. Chỉ một mô hình tối đa m1cho phép phân phối, trong đó hai mô hình tương quan với nhau.

Trong biểu diễn mã hóa điều trị (điều kiện: 0 so với 1) các phân phối này, trong đó các lần chặn ngẫu nhiên của chủ thể không tương thích với độ dốc ngẫu nhiên của chủ thể, không thể được sử dụng bằng mô hình không tương quan ngẫu nhiên, vì trong mỗi trường hợp có sự tương quan giữa ngẫu nhiên độ dốc và đánh chặn trong đại diện điều trị mã hóa.

Tại sao điều trị mã hóa luôn luôn dẫn đến một mối tương quan giữa độ dốc ngẫu nhiên và đánh chặn?

Câu trả lời:


24

Mã hóa điều trị không luôn luôn hoặc nhất thiết dẫn đến tương quan chặn / độ dốc, nhưng nó có xu hướng thường xuyên hơn không. Dễ dàng nhất để biết lý do tại sao đây là trường hợp sử dụng hình ảnh và xem xét trường hợp của một công cụ dự đoán liên tục chứ không phải phân loại.

Dưới đây là hình ảnh của một tập dữ liệu cụm trông bình thường với tương quan xấp xỉ 0 giữa các lần chặn ngẫu nhiên và độ dốc ngẫu nhiên: nhập mô tả hình ảnh ở đây

Nhưng bây giờ hãy xem điều gì xảy ra khi dịch chuyển công cụ dự đoán X sang bên phải bằng cách thêm 3 vào mỗi giá trị X: nhập mô tả hình ảnh ở đây

Đó là cùng một bộ dữ liệu theo nghĩa sâu sắc - nếu chúng ta phóng to các điểm dữ liệu, nó sẽ trông giống hệt với âm mưu đầu tiên, nhưng với trục X được dán nhãn lại - nhưng chỉ bằng cách dịch chuyển X, chúng ta đã tạo ra một mối tương quan tiêu cực gần như hoàn hảo giữa các chặn ngẫu nhiên và độ dốc ngẫu nhiên. Điều này xảy ra bởi vì khi chúng ta thay đổi X, chúng ta xác định lại các lần chặn của từng nhóm. Hãy nhớ rằng các lệnh chặn luôn đề cập đến các giá trị Y trong đó các đường hồi quy dành riêng cho nhóm vượt qua X = 0. Nhưng bây giờ điểm X = 0 nằm cách xa trung tâm dữ liệu. Vì vậy, về cơ bản chúng ta ngoại suy ngoài phạm vi của dữ liệu được quan sát để tính toán các lần chặn. Kết quả, như bạn có thể thấy, là độ dốc càng lớn thì khả năng đánh chặn càng thấp và ngược lại.

Khi bạn sử dụng mã hóa điều trị, nó giống như thực hiện một phiên bản X-shift ít khắc nghiệt hơn được mô tả trong biểu đồ phía dưới. Điều này là do các mã xử lý {0,1} chỉ là phiên bản thay đổi của các mã sai lệch {-0,5, 0,5}, trong đó sự thay đổi +0,5 đã được thêm vào. Chỉnh sửa 2018-08-29: điều này hiện được minh họa rõ ràng hơn và trực tiếp trong hình thứ hai của câu trả lời gần đây hơn này của tôi cho một câu hỏi khác .

Như tôi đã nói trước đây, điều này không đúng bởi sự cần thiết . Có thể có một bộ dữ liệu tương tự như trên, nhưng ở đó độ dốc và phần chặn không được chỉnh sửa trên thang đo đã dịch chuyển (trong đó các phần tử tham chiếu đến các điểm cách xa dữ liệu) và tương quan trên thang đo trung tâm. Nhưng các đường hồi quy dành riêng cho nhóm trong các bộ dữ liệu như vậy sẽ có xu hướng thể hiện các mẫu "quạt ra" mà trên thực tế, không phổ biến trong thế giới thực.


2
+1 Câu trả lời rất hay.
amip

2
Đồng ý với @amoeba, vì các hình minh họa truyền tải ý tưởng rất tốt.
whuber

1
@statmerkur Tôi khá chắc chắn "trong mỗi trường hợp" chỉ đơn giản đề cập đến 3 phân phối được mô tả trong Hình 2 (và không nói, mọi dữ liệu có thể), cả 3 đều thực sự cho thấy mối tương quan khác không. Vì vậy, tôi nghĩ rằng đây chỉ là một sự hiểu lầm về ngữ pháp.
Jake Westfall

1
Có lẽ tôi đang bị làm phiền ở đây, nhưng tôi gặp khó khăn khi kết nối đầy đủ câu trả lời này với câu hỏi ban đầu. Câu trả lời này thực hiện một công việc tuyệt vời chứng minh tình huống trong đó việc dịch chuyển một công cụ dự đoán liên tục có thể tạo ra mối tương quan giữa các lần chặn ngẫu nhiên và độ dốc. Làm thế nào là mã hóa điều trị tương đương với việc dịch chuyển một yếu tố dự đoán liên tục và nó khác với mã hóa lệch lạc về mặt này như thế nào?
Ryan Simmons

1
@RyanSimmons Bởi vì các mã điều trị {0,1} chỉ là phiên bản thay đổi của mã sai lệch {-0,5, 0,5}, trong đó thay đổi +0,5 đã được thêm vào. Tôi sẽ chỉnh sửa câu trả lời của mình để chỉ ra điều này rõ ràng hơn
Jake Westfall

-1

Tôi tin rằng đó là bởi vì bất cứ điều gì số 0 đều bằng 0, vì vậy nếu bạn nhìn vào tất cả bốn tương tác có thể có (số nhân) của 0 và 1, thì ba trong số bốn số là 0. Mặt khác, hai trong số bốn tương tác của -1 và 1 là 1 và hai là -1.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.