Trực giác về ước lượng tham số trong các mô hình hỗn hợp (tham số phương sai so với chế độ có điều kiện)


15

Tôi đã đọc nhiều lần rằng các hiệu ứng ngẫu nhiên (BLUP / chế độ có điều kiện cho các đối tượng) không phải là tham số của mô hình hiệu ứng hỗn hợp tuyến tính mà thay vào đó có thể được lấy từ các tham số phương sai / hiệp phương sai ước tính. Ví dụ Reinhold Kliegl et al. (2011) tiểu bang:

Hiệu ứng ngẫu nhiên là độ lệch của chủ thể so với RT trung bình và độ lệch của chủ thể so với tham số hiệu ứng cố định. Chúng được giả định là độc lập và thường được phân phối với giá trị trung bình là 0. Điều quan trọng là phải nhận ra rằng các hiệu ứng ngẫu nhiên này không phải là tham số của LMM - chỉ có phương sai và hiệp phương sai của chúng là. [...] Các tham số LMM kết hợp với dữ liệu của các đối tượng có thể được sử dụng để tạo ra các dự đoán của bộ điều khiển (các chế độ có điều kiện) của các hiệu ứng ngẫu nhiên cho từng đối tượng.

Ai đó có thể đưa ra một lời giải thích trực quan làm thế nào các tham số phương sai (đồng) của các hiệu ứng ngẫu nhiên có thể được ước tính mà không thực sự sử dụng / ước tính các hiệu ứng ngẫu nhiên?

Câu trả lời:


6

Hãy xem xét một đơn giản tuyến tính mô hình hỗn hợp, ví dụ như một mô hình đánh chặn ngẫu nhiên mà chúng tôi ước tính phụ thuộc của trên x trong các môn học khác nhau, và cho rằng từng đối tượng có chặn ngẫu nhiên riêng của họ: y = một + b x + c i + ε . Đây chặn c i được mô hình hóa như đến từ một phân phối Gaussian c i ~ N ( 0 , τ 2 ) và tiếng ồn ngẫu nhiên cũng là Gaussian ε ~ N ( 0 , σ 2yx

y=a+bx+ci+ϵ.
ci
ciN(0,τ2)
Trongcú pháp mô hình này sẽ được viết là.
ϵN(0,σ2).
lme4y ~ x + (1|subject)

Hướng dẫn viết lại phần trên như sau:

ycN(a+bx+c,σ2)cN(0,τ2)

Đây là một cách chính thức hơn để xác định cùng một mô hình xác suất. Từ công thức này, chúng ta có thể thấy trực tiếp rằng các hiệu ứng ngẫu nhiên không phải là "tham số": chúng là các biến ngẫu nhiên không quan sát được. Vậy làm thế nào chúng ta có thể ước tính các tham số phương sai mà không biết các giá trị của c ?cic

Lưu ý rằng phương trình đầu tiên ở trên mô tả phân phối có điều kiện của cho c . Nếu chúng ta biết sự phân bố của cy | c , sau đó chúng ta có thể làm việc ra các điều kiện phân phối của y bằng cách tích hợp trên c . Bạn có thể biết nó là Luật tổng xác suất . Nếu cả hai phân phối là Gaussian, thì kết quả phân phối vô điều kiện cũng là Gaussian.yccycyc

Trong trường hợp này sự phân bố không điều kiện đơn giản là , nhưng các quan sát của chúng tôi không phải là mẫu iid từ nó bởi vì có rất nhiều phép đo mỗi môn học. Để tiến hành, chúng ta cần xem xét phân phối của toàn bộ nN(a+bx,σ2+τ2)n chiều vector của tất cả các quan sát: y ~ N ( một + b x , Σ ) nơi Σ = σ 2 Tôi n + τ 2 tôiy

yN(a+bx,Σ)
là ma trận khối chéo gồm σ 2 τ 2 . Bạn yêu cầu trực giác nên tôi muốn tránh toán. Điểm quan trọng là phương trình này không có c nữa! Đâylà những gì người ta thực sự phù hợp với dữ liệu được quan sát và đó là lý do tại sao người ta nói rằng c i không phải là tham số của mô hình.Σ=σ2In+τ2IN1Mσ2τ2cci

Khi các tham số , b , τ 2σ 2 phù hợp, người ta có thể tìm ra phân phối có điều kiện của c i cho mỗi i . Những gì bạn thấy trong đầu ra mô hình hỗn hợp là các chế độ của các phân phối này, còn gọi là các chế độ có điều kiện.abτ2σ2cii


1
Tôi thích câu trả lời này. Tôi cũng thích câu hỏi. Cá nhân tôi vẫn đang vật lộn với cơ chế (tôi thực sự chưa bao giờ quan tâm đến nó để nghiên cứu các thuật toán giải quyết LMEM). Vì vậy, tôi đoán rằng sự khác biệt của các hiệu ứng ngẫu nhiên đang được tạo ra bằng cách thay đổi từ sang yN ( a + b x , Σ ) Tôi tưởng tượng rằng một ví dụ nhỏ làm việc này ra có thể là tốt đẹp. Tôi đang xem xét để tự làm điều này, nhưng có thể có những tài nguyên đã hiển thị các ví dụ như vậy (bất cứ ai?).
yN(a+bx,σ2I)
y~N(một+bx,Σ)
Sextus Empiricus

@statmerkur Tau là một tham số; công thức cuối cùng trong câu trả lời của tôi vẫn bao gồm tau. Điểm cốt yếu là công thức cuối cùng KHÔNG bao gồmccc

Tôi nghĩ rằng tôi không có được bước tích hợp. Như @Martijn Weterings đã chỉ ra một ví dụ (mã R) nhỏ hoặc tham chiếu là người ta có thể thấy điều này sẽ rất tuyệt!
statmerkur

Cảm ơn vì đã chấp nhận câu trả lời của tôi và trao cho tôi tiền thưởng @statmerkur, nhưng thật tệ khi nó vẫn chưa rõ ràng. Tôi sẽ cố gắng nghĩ về một ví dụ. Tôi sẽ ping bạn khi tôi cập nhật câu trả lời.
amip nói rằng Phục hồi Monica

@statmerkur Trong câu trả lời cho câu hỏi này, tôi trình bày cách tính thủ công của mô hình hiệu ứng hỗn hợp (thủ công theo nghĩa viết hàm khả năng, việc tối ưu hóa vẫn được thực hiện bởi chức năng tối ưu hóa tiêu chuẩn trong R) stats.stackexchange.com/a/ 337348/164061
Sextus Empiricus

0

Bạn có thể dễ dàng ước tính các tham số phương sai và hiệp phương sai mà không cần dựa vào các hiệu ứng ngẫu nhiên bằng cách sử dụng các hiệu ứng cố định (xem ở đây để thảo luận về hiệu ứng cố định so với hiệu ứng ngẫu nhiên; lưu ý rằng thực tế là có các định nghĩa khác nhau về các thuật ngữ này).

Hiệu ứng cố định có thể dễ dàng bắt nguồn bằng cách thêm biến chỉ báo (nhị phân) cho từng nhóm (hoặc từng khoảng thời gian hoặc bất cứ điều gì bạn nghĩ để sử dụng làm hiệu ứng ngẫu nhiên; điều này tương đương với biến đổi bên trong). Điều này cho phép bạn dễ dàng ước tính các hiệu ứng cố định (có thể được xem như một tham số).

Giả định hiệu ứng cố định không yêu cầu bạn đưa ra giả định về phân phối hiệu ứng cố định, bạn có thể dễ dàng ước tính phương sai của hiệu ứng cố định (mặc dù điều này cực kỳ nhiễu nếu số lượng quan sát trong mỗi nhóm nhỏ; sự thiên vị cho chi phí của phương sai lớn hơn nhiều so với các hiệu ứng ngẫu nhiên vì bạn mất một bậc tự do cho mỗi nhóm thông qua việc thêm các biến chỉ báo này). Bạn cũng có thể ước tính hiệp phương sai giữa các nhóm hiệu ứng cố định khác nhau hoặc giữa các hiệu ứng cố định và các hiệp phương sai khác. Chúng tôi đã thực hiện điều đó, ví dụ như trong một bài báo có tên là Cân bằng cạnh tranh và Kết hợp hợp nhất ở Bundesliga của Đức để ước tính liệu các cầu thủ bóng đá tốt hơn có ngày càng chơi cho các đội tốt hơn hay không.

Hiệu ứng ngẫu nhiên cần một giả định trước về hiệp phương sai. Trong các mô hình hiệu ứng ngẫu nhiên cổ điển, bạn cho rằng các hiệu ứng ngẫu nhiên giống như một lỗi và chúng độc lập với các hiệp phương sai khác (do đó bạn có thể bỏ qua chúng và sử dụng OLS và vẫn nhận được các ước tính không hiệu quả cho tham số khác nếu các giả định của mô hình hiệu ứng ngẫu nhiên giữ đúng).

Hơn nữa thông tin kỹ thuật có sẵn ở đây . Andrew Gelman cũng có nhiều công việc trực quan hơn về điều này trong cuốn sách hay Phân tích dữ liệu của mình bằng mô hình hồi quy và mô hình đa cấp / phân cấp


1
Tôi đang đề cập đến các tham số phương sai (đồng) của các hiệu ứng ngẫu nhiên (xem phần chỉnh sửa của tôi).
statmerkur

2
Tôi không nghĩ rằng điều này trả lời câu hỏi.
amip nói phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.