268

Nói một cách đơn giản, làm thế nào bạn sẽ giải thích (có lẽ với các ví dụ đơn giản) sự khác biệt giữa hiệu ứng cố định, hiệu ứng ngẫu nhiên và mô hình hiệu ứng hỗn hợp?

— Andrew
nguồn

4

Tôi cũng thấy rằng đôi khi rất khó xác định khi nào một hiệu ứng phải được coi là cố định hoặc là hiệu ứng ngẫu nhiên. Mặc dù có một số khuyến nghị về thực tế này, không phải lúc nào cũng dễ dàng đưa ra quyết định đúng đắn.

— Manuel Ramón

3

Tôi nghĩ rằng liên kết này có thể hữu ích trong việc làm rõ các nguyên tắc cơ bản của các mô hình hỗn hợp: Mô hình cố định, ngẫu nhiên và hỗn hợp (tài liệu SAS) .

— pietrop

6

Một câu trả lời cực kỳ hữu ích cũng có thể được tìm thấy ở đây: sự khác biệt giữa hiệu ứng ngẫu nhiên-, hiệu ứng hỗn hợp- & mô hình cận biên là gì?

— gung

145

Nhà thống kê Andrew Gelman nói rằng thuật ngữ 'hiệu ứng cố định' và 'hiệu ứng ngẫu nhiên' có ý nghĩa khác nhau tùy thuộc vào người sử dụng chúng. Có lẽ bạn có thể chọn ra một trong 5 định nghĩa áp dụng cho trường hợp của bạn. Nói chung, có thể tốt hơn là tìm các phương trình mô tả mô hình xác suất mà các tác giả đang sử dụng (khi đọc) hoặc viết ra mô hình xác suất đầy đủ mà bạn muốn sử dụng (khi viết).

Ở đây chúng tôi phác thảo năm định nghĩa mà chúng tôi đã thấy:

Hiệu ứng cố định là không đổi giữa các cá nhân và hiệu ứng ngẫu nhiên khác nhau. Ví dụ, trong một nghiên cứu tăng trưởng, một mô hình với ngẫu nhiên chặn và độ dốc cố định tương ứng với các đường song song cho các cá nhân khác nhau hoặc mô hình . Do đó Kreft và De Leeuw (1998) phân biệt hệ số cố định và ngẫu nhiên. $a_i$ $b$ $i$ $y_{it} = a_i + b t$

Hiệu ứng được cố định nếu bản thân chúng thú vị hoặc ngẫu nhiên nếu có sự quan tâm đến dân số cơ bản. Searle, Casella và McCulloch (1992, Phần 1.4) khám phá sự khác biệt này theo chiều sâu.

Khi một mẫu cạn kiệt dân số, biến tương ứng được cố định; khi mẫu là một phần nhỏ (nghĩa là không đáng kể) của quần thể thì biến tương ứng là ngẫu nhiên. ((Green và Tukey, 1960)

Nếu một hiệu ứng được coi là giá trị nhận ra của một biến ngẫu nhiên, thì nó được gọi là hiệu ứng ngẫu nhiên. ((LaMotte, 1983)

Các hiệu ứng cố định được ước tính bằng cách sử dụng các bình phương tối thiểu (hoặc, nói chung là khả năng tối đa) và các hiệu ứng ngẫu nhiên được ước tính với độ co ngót (dự đoán không thiên vị tuyến tính trong thuật ngữ của Robinson, 1991). Định nghĩa này là tiêu chuẩn trong tài liệu mô hình hóa đa cấp (xem, ví dụ, Snijder và Bosker, 1999, Mục 4.2) và trong kinh tế lượng.

[ Gelman, 2004, Phân tích phương sai tại sao nó quan trọng hơn bao giờ hết. Biên niên sử Thống kê. ]

— John Salvatier
nguồn

4

+1: liên kết rất hay! Tôi đoán định nghĩa cũng thay đổi tùy theo lĩnh vực (ví dụ # 4 rất toán học / thống kê, nhưng # 1 và # 2 thì "dễ hiểu" hơn theo quan điểm khoa học đời sống)

— nico

12

Nó cũng là thông tin để đọc Thảo luận và Rejoinder cho bài viết này. Trong cuộc thảo luận, Peter McCullagh đã viết rằng ông không đồng ý với một phần đáng kể những gì Gelman viết. Quan điểm của tôi là không ủng hộ cái này hay cái kia, nhưng lưu ý rằng có sự bất đồng đáng kể giữa các chuyên gia và không đặt quá nhiều trọng lượng lên một tờ giấy.

— julieth

6

Toàn bộ cuộc thảo luận có tại link

— julieth

36

Thật buồn cười khi Andrew Gelman được mô tả là một "blogger" chứ không phải là một trong những nhà thống kê quan trọng nhất trên thế giới hiện nay. Mặc dù anh ấy, tất nhiên, là một blogger, anh ấy có lẽ nên được gọi là "Thống kê Andrew Gelman" nếu bất kỳ vòng loại nào được sử dụng.

— Cân bằng Brash

4

Nhưng với tư cách là một nhà thống kê và không chỉ là một blogger ưa thích, anh ta nên đặt ít nhất tần số tương đối chủ quan của năm trường hợp sử dụng. Khi mọi người nói về các hiệu ứng cố định so với các hiệu ứng ngẫu nhiên, hầu hết mọi lúc đều có nghĩa là:

(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)

— Ufos

251

Có những cuốn sách hay về điều này như Gelman và Hill . Những gì tiếp theo về cơ bản là một bản tóm tắt về quan điểm của họ.

Trước hết, bạn không nên quá chú ý đến thuật ngữ này. Trong thống kê, không bao giờ nên sử dụng biệt ngữ để thay thế cho sự hiểu biết toán học về chính các mô hình. Điều đó đặc biệt đúng với các mô hình hiệu ứng ngẫu nhiên và hỗn hợp. "Hỗn hợp" chỉ có nghĩa là mô hình có cả hiệu ứng cố định và ngẫu nhiên, vì vậy hãy tập trung vào sự khác biệt giữa cố định và ngẫu nhiên.

Hiệu ứng ngẫu nhiên và cố định

Giả sử bạn có một mô hình với một công cụ dự đoán phân loại, phân chia các quan sát của bạn thành các nhóm theo các giá trị danh mục. * Các hệ số mô hình, hoặc "hiệu ứng", liên quan đến công cụ dự đoán đó có thể là cố định hoặc ngẫu nhiên. Sự khác biệt thực tế quan trọng nhất giữa hai là:

Hiệu ứng ngẫu nhiên được ước tính với gộp một phần, trong khi hiệu ứng cố định thì không.

Nhóm một phần có nghĩa là, nếu bạn có một vài điểm dữ liệu trong một nhóm, ước tính hiệu ứng của nhóm sẽ dựa một phần vào dữ liệu phong phú hơn từ các nhóm khác. Đây có thể là một sự thỏa hiệp tuyệt vời giữa việc ước tính hiệu ứng bằng cách gộp hoàn toàn tất cả các nhóm, che giấu sự thay đổi cấp độ nhóm và ước tính hiệu ứng cho tất cả các nhóm hoàn toàn riêng biệt, có thể đưa ra ước tính kém cho các nhóm mẫu thấp.

Hiệu ứng ngẫu nhiên chỉ đơn giản là sự mở rộng của kỹ thuật gộp một phần như một mô hình thống kê mục đích chung. Điều này cho phép áp dụng nguyên tắc ý tưởng cho nhiều tình huống, bao gồm nhiều yếu tố dự đoán, các biến liên tục và phân loại hỗn hợp và các cấu trúc tương quan phức tạp. (Nhưng với sức mạnh lớn đi kèm với trách nhiệm lớn: sự phức tạp của mô hình hóa và suy luận được tăng lên đáng kể, và có thể làm phát sinh những thành kiến tinh tế đòi hỏi sự tinh tế đáng kể để tránh.)

Để thúc đẩy mô hình hiệu ứng ngẫu nhiên, hãy tự hỏi: tại sao bạn sẽ tập hợp một phần? Có lẽ bởi vì bạn nghĩ rằng các nhóm nhỏ là một phần của một số nhóm lớn hơn với hiệu ứng trung bình chung. Nhóm phương tiện có thể sai lệch một chút so với ý nghĩa của nhóm lớn, nhưng không phải là một lượng tùy ý. Để chính thức hóa ý tưởng đó, chúng tôi cho rằng các độ lệch tuân theo phân phối, điển hình là Gaussian. Đó là nơi "ngẫu nhiên" trong các hiệu ứng ngẫu nhiên xuất hiện: chúng ta giả sử độ lệch của các nhóm con từ cha mẹ theo sự phân phối của một biến ngẫu nhiên. Một khi bạn có ý tưởng này trong đầu, các phương trình mô hình hiệu ứng hỗn hợp diễn ra một cách tự nhiên.

Thật không may, người dùng mô hình hiệu ứng hỗn hợp thường có những định kiến sai về hiệu ứng ngẫu nhiên là gì và chúng khác với hiệu ứng cố định như thế nào. Mọi người nghe thấy "ngẫu nhiên" và nghĩ rằng nó có nghĩa là một cái gì đó rất đặc biệt về hệ thống được mô hình hóa, giống như các hiệu ứng cố định phải được sử dụng khi một cái gì đó "cố định" trong khi các hiệu ứng ngẫu nhiên phải được sử dụng khi một cái gì đó được "lấy mẫu ngẫu nhiên". Nhưng không có gì đặc biệt ngẫu nhiên khi giả định rằng các hệ số mô hình đến từ một phân phối; nó chỉ là một ràng buộc mềm, tương tự như hình phạt được áp dụng cho các hệ số mô hình trong hồi quy sườn. Có nhiều tình huống khi bạn có thể hoặc không muốn sử dụng các hiệu ứng ngẫu nhiên và chúng không nhất thiết phải liên quan nhiều đến sự khác biệt giữa "cố định" và "ngẫu nhiên" $\ell_2$

Thật không may, sự nhầm lẫn khái niệm gây ra bởi các điều khoản này đã dẫn đến một sự nhầm lẫn của các định nghĩa mâu thuẫn . Trong năm định nghĩa tại liên kết này, chỉ có số 4 là hoàn toàn chính xác trong trường hợp chung, nhưng nó cũng hoàn toàn không chính xác. Bạn phải đọc toàn bộ giấy tờ và sách (hoặc thất bại trong bài viết này) để hiểu định nghĩa đó ngụ ý gì trong công việc thực tế.

Thí dụ

Hãy xem xét một trường hợp trong đó mô hình hiệu ứng ngẫu nhiên có thể hữu ích. Giả sử bạn muốn ước tính thu nhập hộ gia đình trung bình của Hoa Kỳ bằng mã ZIP. Bạn có một bộ dữ liệu lớn chứa các quan sát về thu nhập và mã ZIP của các hộ gia đình. Một số mã ZIP được thể hiện tốt trong bộ dữ liệu, nhưng những mã khác chỉ có một vài hộ gia đình.

Đối với mô hình ban đầu của bạn, rất có thể bạn sẽ có thu nhập trung bình trong mỗi ZIP. Điều này sẽ hoạt động tốt khi bạn có nhiều dữ liệu cho một ZIP, nhưng các ước tính cho các ZIP được lấy mẫu kém của bạn sẽ chịu sự chênh lệch cao. Bạn có thể giảm thiểu điều này bằng cách sử dụng công cụ ước tính hao hụt (còn gọi là gộp một phần), điều này sẽ đẩy các giá trị cực đoan về thu nhập trung bình trên tất cả các mã ZIP.

Nhưng bạn nên làm bao nhiêu co rút / gộp cho một ZIP cụ thể? Theo trực giác, nó nên phụ thuộc vào những điều sau đây:

Bạn có bao nhiêu quan sát trong ZIP đó
Bạn có bao nhiêu quan sát tổng thể
Giá trị trung bình và phương sai của thu nhập hộ gia đình ở cấp độ cá nhân trên tất cả các mã ZIP
Phương sai của cấp độ nhóm trong thu nhập trung bình của hộ gia đình trên tất cả các mã ZIP

Nếu bạn mô hình mã ZIP là một hiệu ứng ngẫu nhiên, ước tính thu nhập trung bình trong tất cả các mã ZIP sẽ phải chịu một sự thu hẹp có căn cứ thống kê, có tính đến tất cả các yếu tố trên.

Phần tốt nhất là các mô hình hiệu ứng ngẫu nhiên và hỗn hợp tự động xử lý (4), ước lượng biến thiên, cho tất cả các hiệu ứng ngẫu nhiên trong mô hình. Điều này khó hơn so với cái nhìn đầu tiên: bạn có thể thử phương sai của trung bình mẫu cho mỗi ZIP, nhưng điều này sẽ bị sai lệch cao, bởi vì một số phương sai giữa các ước tính cho các ZIP khác nhau chỉ là phương sai lấy mẫu. Trong một mô hình hiệu ứng ngẫu nhiên, quá trình suy luận chiếm lấy phương sai lấy mẫu và thu nhỏ ước lượng phương sai tương ứng.

Có (1) - (4), một mô hình hiệu ứng ngẫu nhiên / hỗn hợp có thể xác định độ co thích hợp cho các nhóm mẫu thấp. Nó cũng có thể xử lý các mô hình phức tạp hơn nhiều với nhiều yếu tố dự đoán khác nhau.

Mối quan hệ với mô hình Bayes phân cấp

Nếu điều này nghe có vẻ như mô hình Bayes phân cấp đối với bạn, thì bạn đã đúng - đó là một họ hàng gần nhưng không giống nhau. Các mô hình hiệu ứng hỗn hợp được phân cấp theo cách chúng tạo ra các phân phối cho các tham số tiềm ẩn, không quan sát được, nhưng chúng thường không hoàn toàn bằng Bayesian vì các siêu âm cấp cao nhất sẽ không được cung cấp cho các mục sư thích hợp. Ví dụ, trong ví dụ trên, rất có thể chúng ta sẽ coi thu nhập trung bình trong một ZIP nhất định là một mẫu từ phân phối bình thường, với giá trị trung bình và sigma chưa biết được ước tính bằng quy trình phù hợp hiệu ứng hỗn hợp. Tuy nhiên, một mô hình hiệu ứng hỗn hợp (không phải Bayes) thường sẽ không có trước về trung bình và sigma chưa biết, vì vậy nó không hoàn toàn là Bayes. Điều đó nói rằng, với một tập dữ liệu có kích thước khá, mô hình hiệu ứng hỗn hợp tiêu chuẩn và biến thể Bayes hoàn toàn sẽ thường cho kết quả rất giống nhau.

* Mặc dù nhiều phương pháp điều trị của chủ đề này tập trung vào một định nghĩa hẹp về "nhóm", nhưng thực tế khái niệm này rất linh hoạt: nó chỉ là một tập hợp các quan sát có chung một thuộc tính. Một nhóm có thể bao gồm nhiều quan sát của một người, hoặc nhiều người trong một trường học, hoặc nhiều trường học trong một huyện, hoặc nhiều loại trái cây, hoặc nhiều loại rau từ cùng một vụ thu hoạch hoặc nhiều vụ thu hoạch của cùng một loại rau, vv Bất kỳ biến phân loại có thể được sử dụng như một biến nhóm.

— Paul
nguồn

19

+6. Tôi nghĩ rằng đây hiện là câu trả lời tốt nhất trong chủ đề này và hy vọng theo thời gian nó sẽ trở thành câu trả lời được đánh giá cao nhất. Một gợi ý mà tôi sẽ đưa ra là bao gồm một số công thức: có lẽ trong phần Ví dụ của bạn, bạn có thể cung cấp các công thức chỉ định các mô hình hiệu ứng cố định và ngẫu nhiên (và có lẽ cả mô hình "hệ số đơn", tức là mô hình "tổng hợp hoàn chỉnh "). Tôi nghĩ rằng các công thức sẽ làm cho câu trả lời của bạn rõ ràng hơn và hấp dẫn hơn / hấp dẫn hơn (hiện tại nó trông hơi giống một bức tường văn bản).

— amip

3

@amoeba cảm ơn! Bạn nói đúng về hệ số là từ sai, nó giống "thuật ngữ mô hình" hơn là hệ số. Công thức sẽ giúp xóa điều này và các câu hỏi khác lên. Tôi đã dần dần điều chỉnh câu trả lời này khi thời gian và cảm hứng ập đến, và sẽ tiếp tục làm như vậy cho đến khi nó đến nơi cần đến! Tôi có thể sẽ bổ sung các công thức cho "hồi quy chống lại một biến phân loại duy nhất." Toàn bộ nhóm = hệ số nhóm là giống hệt nhau (delta trước, zero sigma), pooling một phần = chúng có thể khác nhau một chút (sigma hữu hạn), không gộp = không ràng buộc (sigma vô hạn).

— Paul

Cảm ơn câu trả lời tuyệt vời! Tuy nhiên, tôi đã mất bạn tại "Bạn có thể giảm thiểu điều này bằng cách sử dụng công cụ ước tính co rút (còn gọi là gộp một phần), điều này sẽ đẩy các giá trị cực đoan về thu nhập trung bình trên tất cả các mã ZIP." Tập hợp một phần là gì? Bạn có thể đưa ra một ví dụ trực quan? Ngoài ra, làm thế nào để trang Wikipedia về các hiệu ứng ngẫu nhiên đồng ý với những gì bạn nói? Ví dụ của họ về "hiệu ứng ngẫu nhiên" không xem xét kích thước mẫu nào.

— AlphaOmega

2

Chúc mừng bạn đã vượt qua 100 lượt upvote cho câu trả lời này :-)

— amip

1

@Paul Tôi thực sự loay hoay với cách hiểu cách hợp nhất câu trả lời này (ví dụ: "Mọi người ... nghĩ ... các hiệu ứng cố định phải được sử dụng khi một cái gì đó" cố định "trong khi các hiệu ứng ngẫu nhiên phải được sử dụng khi một cái gì đó được" lấy mẫu ngẫu nhiên ") với những gì tôi thấy theo cách mà các lỗi tiêu chuẩn xuất hiện trong các mô hình hỗn hợp, trong đó các SE có hiệu ứng ngẫu nhiên dường như chỉ phù hợp với giả định rằng chúng được lấy mẫu ngẫu nhiên và các SE có hiệu ứng cố định chỉ khi chúng được sửa Xem ví dụ ở đây . Tôi đang thiếu gì? Mọi suy nghĩ được đánh giá cao ngoài lời nói !!

— justme 18/12/17

47

Tôi đã viết về điều này trong một chương sách về các mô hình hỗn hợp (chương 13 trong Fox, Neg rời-Yankelevich và Sosa 2014 ); các trang có liên quan (tr. 311-315) có sẵn trên Google Sách . Tôi nghĩ rằng câu hỏi giảm xuống "các định nghĩa về hiệu ứng cố định và ngẫu nhiên là gì?" (một "mô hình hỗn hợp" chỉ là một mô hình có chứa cả hai). Thảo luận của tôi nói ít hơn một chút về định nghĩa chính thức của họ (mà tôi sẽ nói đến bài báo Gelman được liên kết bởi câu trả lời của @ JohnSalvatier ở trên) và nhiều hơn về các tính chất và tiện ích thực tế của họ. Dưới đây là một số trích đoạn:

Quan điểm truyền thống về các hiệu ứng ngẫu nhiên là một cách để thực hiện các kiểm tra thống kê chính xác khi một số quan sát có tương quan.

Chúng ta cũng có thể nghĩ về các hiệu ứng ngẫu nhiên như một cách để kết hợp thông tin từ các cấp độ khác nhau trong một biến nhóm.

Hiệu ứng ngẫu nhiên đặc biệt hữu ích khi chúng tôi có (1) nhiều cấp độ (ví dụ: nhiều loài hoặc khối), (2) dữ liệu tương đối ít trên mỗi cấp độ (mặc dù chúng tôi cần nhiều mẫu từ hầu hết các cấp độ) và (3) không đồng đều lấy mẫu qua các cấp (hộp 13.1).

Những người thường xuyên và Bayes định nghĩa các hiệu ứng ngẫu nhiên hơi khác nhau, điều này ảnh hưởng đến cách họ sử dụng chúng. Những người thường xuyên định nghĩa các hiệu ứng ngẫu nhiên là các biến phân loại có mức độ được chọn ngẫu nhiên từ một dân số lớn hơn, ví dụ, các loài được chọn ngẫu nhiên từ danh sách các loài đặc hữu. Bayes định nghĩa các hiệu ứng ngẫu nhiên là tập hợp các biến có tham số [tất cả] được rút ra từ phân phối [giống nhau]. Định nghĩa thường xuyên là mạch lạc về mặt triết học, và bạn sẽ gặp các nhà nghiên cứu (bao gồm cả các nhà phê bình và giám sát viên), những người khăng khăng đòi hỏi, nhưng thực tế nó có thể có vấn đề. Ví dụ, nó ngụ ý rằng bạn không thể sử dụng các loài làm hiệu ứng ngẫu nhiên khi bạn đã quan sát tất cả các loài tại địa điểm hiện trường của bạn vì danh sách các loài không phải là một mẫu từ quần thể lớn hơn hoặc sử dụng năm như một hiệu ứng ngẫu nhiên, do các nhà nghiên cứu hiếm khi thực hiện một thí nghiệm trong những năm được lấy mẫu ngẫu nhiên, họ thường sử dụng một chuỗi năm liên tiếp hoặc tập hợp những năm hỗn loạn khi họ có thể tham gia vào lĩnh vực này.

Các hiệu ứng ngẫu nhiên cũng có thể được mô tả như các biến dự đoán mà bạn quan tâm khi đưa ra các suy luận về phân phối giá trị (nghĩa là phương sai giữa các giá trị của phản hồi ở các mức khác nhau) thay vì kiểm tra sự khác biệt của các giá trị giữa các mức cụ thể.

Mọi người đôi khi nói rằng các hiệu ứng ngẫu nhiên là các yếu tố mà bạn không quan tâm. Điều này không phải lúc nào cũng đúng. Mặc dù thường xảy ra trong các thí nghiệm sinh thái (trong đó sự khác biệt giữa các vị trí thường chỉ gây phiền toái), đôi khi nó rất được quan tâm, ví dụ như trong các nghiên cứu tiến hóa trong đó sự khác biệt giữa các kiểu gen là nguyên liệu thô cho chọn lọc tự nhiên hoặc trong nghiên cứu nhân khẩu học trong đó sự thay đổi giữa các năm làm giảm tốc độ tăng trưởng dài hạn. Trong một số trường hợp, các hiệu ứng cố định cũng được sử dụng để kiểm soát biến thể không thú vị, ví dụ: sử dụng khối lượng như một hiệp phương sai để kiểm soát các hiệu ứng kích thước cơ thể.

Bạn cũng sẽ nghe thấy rằng bạn không thể nói bất cứ điều gì về giá trị (dự đoán) của chế độ có điều kiện. Điều này không đúng hoặc bạn không thể chính thức kiểm tra một giả thuyết khống rằng giá trị đó bằng 0 hoặc là các giá trị của hai mức khác nhau là bằng nhau, nhưng vẫn hoàn toàn hợp lý khi xem xét giá trị dự đoán và thậm chí để tính toán một lỗi tiêu chuẩn của giá trị dự đoán (ví dụ: xem các thanh lỗi xung quanh các chế độ có điều kiện trong hình 13.1).

Khung Bayes có định nghĩa đơn giản hơn về các hiệu ứng ngẫu nhiên. Theo cách tiếp cận Bayes, hiệu ứng cố định là một hiệu ứng mà chúng tôi ước tính từng tham số (ví dụ: giá trị trung bình của từng loài trong một chi) một cách độc lập (với các linh mục được chỉ định độc lập), trong khi đối với hiệu ứng ngẫu nhiên, các tham số cho mỗi cấp được mô hình hóa như được vẽ từ một phân phối (thường là bình thường); trong ký hiệu thống kê tiêu chuẩn, . $\textrm{species_mean} \sim {\cal N}(\textrm{genus_mean}, \sigma^2_{\textrm{species}})$

Tôi đã nói ở trên rằng các hiệu ứng ngẫu nhiên là hữu ích nhất khi biến nhóm có nhiều mức đo. Ngược lại, các hiệu ứng ngẫu nhiên thường không hiệu quả khi biến nhóm có quá ít cấp độ. Bạn thường không thể sử dụng các hiệu ứng ngẫu nhiên khi biến nhóm có ít hơn năm cấp và ước tính phương sai của hiệu ứng ngẫu nhiên không ổn định với ít hơn tám cấp, bởi vì bạn đang cố ước tính phương sai từ một mẫu rất nhỏ.

— Ben Bolker
nguồn

bản xem trước hiện không có trang nào sau 311 và bỏ lỡ trang 310, có vẻ như nó sẽ rất hữu ích ở đây ...

— bay

có lẽ đó là một vấn đề khu vực? cảm ơn vì câu trả lời rõ ràng ở trên

— bay

1

Tôi cũng không có quyền truy cập vào kết quả Google Sách. Cảm ơn đã bao gồm các văn bản ở đây.

— MichaelChirico

Tôi thực sự thích đoạn trích này. Đây có thể là mô tả rõ ràng và hữu ích nhất về thời điểm và lý do sử dụng các hiệu ứng ngẫu nhiên mà tôi đã thấy. Ước gì tôi có nó khi tôi dạy cách đây vài năm.

— Gregor

39

Hiệu ứng cố định: Một cái gì đó mà người thí nghiệm trực tiếp thao tác và thường có thể lặp lại, ví dụ, quản lý thuốc - một nhóm được dùng thuốc, một nhóm được dùng giả dược.

Hiệu ứng ngẫu nhiên: Nguồn của biến thể ngẫu nhiên / đơn vị thử nghiệm, ví dụ, các cá nhân được rút ra (ngẫu nhiên) từ một quần thể cho một thử nghiệm lâm sàng. Hiệu ứng ngẫu nhiên ước tính độ biến thiên

Hiệu ứng hỗn hợp: Bao gồm cả hai, hiệu ứng cố định trong các trường hợp này là ước tính các hệ số mức dân số, trong khi các hiệu ứng ngẫu nhiên có thể giải thích cho sự khác biệt cá nhân trong phản ứng với một hiệu ứng, ví dụ, mỗi người nhận được cả thuốc và giả dược trong các trường hợp khác nhau, cố định tác dụng ước tính tác dụng của thuốc, các điều khoản tác dụng ngẫu nhiên sẽ cho phép mỗi người phản ứng với thuốc khác nhau.

Các loại chung của hiệu ứng hỗn hợp - các biện pháp lặp đi lặp lại, theo chiều dọc, phân cấp, chia lô.

— Matt Albrecht
nguồn

3

Bạn không sai, nhưng định nghĩa của bạn về hiệu ứng cố định không phải là điều tôi sẽ nghĩ đến khi ai đó nói hiệu ứng cố định. Đây là những gì tôi nghĩ khi ai đó nói hiệu ứng cố định en.wikipedia.org/wiki/Difference_in_differences hoặc stata.com/support/faqs/stat/xtreg2.html (đặc biệt là phương trình 3 trên trang Stata)

— Andy W

@AndyW: Tôi có hiểu chính xác rằng sự hiểu biết của bạn về "hiệu ứng cố định" tương ứng với định nghĩa # 1 như được liệt kê bởi Gelman và được trích dẫn trong câu trả lời (được chấp nhận) của JohnSalvatier trong chủ đề này không?

— amip

1

a_{i}

$a_i$

1

a_{i}

$a_i$

1

@amoeba Tôi đồng ý câu trả lời này phải là -1. Nó không cung cấp một lời giải thích chung chính xác, cũng như không chỉ rõ các điều kiện trong đó giải thích cụ thể này sẽ hợp lệ. Vì vậy, ai có thể đi qua câu trả lời này và có được kiến thức hữu ích, đáng tin cậy?

— Paul

23

Tôi đến câu hỏi này từ đây , một bản sao có thể.

Đã có một số câu trả lời xuất sắc, nhưng như đã nêu trong câu trả lời được chấp nhận, có nhiều cách sử dụng khác nhau (nhưng có liên quan) của thuật ngữ này, vì vậy có thể có giá trị khi đưa ra viễn cảnh như được sử dụng trong kinh tế lượng, mà dường như chưa được đề cập đầy đủ ở đây .

y_{i t} = X_{i t} δ + α_{i} + η_{i t},

$y_{it}=X_{it}\delta+\alpha_i+\eta_{it},$

α_{i}

$\alpha_i$

η_{i t}

$\eta_{it}$

$\alpha_i$

$\alpha_i$ $X_{it}$ $Cov(\alpha_i,X_{it})=0$

$y$ $X$ $y_{it}$ $X_{it}$

$\alpha_i$ $X_{it}$ $i$ $X_{it}=0$ $X_{it}$

$\delta$ $t$ $\alpha_i$ $X_{it}$

$T$ m

Đây là mã tạo ra dữ liệu và tạo ra ước tính RE dương và ước tính FE chính xác. (Điều đó nói rằng, ước tính RE cũng sẽ âm tính với các hạt giống khác, xem ở trên.)

library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12

step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
  X[,i] = runif(m,i,i+1)
  X[,i] = rnorm(m,i)
  y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)  
}
stackX = as.vector(X)
stackY = as.vector(y)

darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)

unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX) 
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

Đầu ra:

> fe

Model Formula: stackY ~ stackX

Coefficients:
 stackX 
-1.0451 


> re

Model Formula: stackY ~ stackX

Coefficients:
(Intercept)      stackX 
   18.34586     0.77031

— Christoph Hanck
nguồn

1

δ

$\delta$

1

Ngoài ra, hóa ra có thể xử lý ví dụ này với các hiệu ứng hỗn hợp. Đây là giấy đó cho thấy cách: academiccommons.columbia.edu/download/fedora_content/download/...

— Paul

1

T \to \infty

$T\to\infty$

N

$N$

7

Trong cuộc thảo luận ở trên, sẽ chính xác hơn khi thay thế "hiệu ứng ngẫu nhiên" bằng "phiên bản giới hạn của hiệu ứng ngẫu nhiên được triển khai trong gói plm của R". Có các mô hình hiệu ứng ngẫu nhiên khác sẽ xử lý vấn đề dự đoán / nhóm tương quan tốt, như trong bài viết được trích dẫn trong bình luận trước đây của tôi. Chúng chỉ chưa phải là một phần của gói / tài liệu kinh tế lượng. Dường như các định nghĩa kinh tế lượng của các hiệu ứng cố định và ngẫu nhiên là rất cụ thể theo miền và không thực sự đại diện cho ý nghĩa chung cơ bản hơn của chúng từ các tài liệu thống kê.

— Paul

4

Điểm công bằng, tôi đã thực hiện một chút chỉnh sửa. Nhưng imo, đây chính xác là điều làm cho chủ đề này trở nên có giá trị: các lĩnh vực khác nhau có nghĩa là những thứ khác nhau ít nhiều cùng một thuật ngữ và các bài đăng khác nhau giúp đánh vần những khác biệt này.

— Christoph Hanck

12

Sự khác biệt chỉ có ý nghĩa trong bối cảnh thống kê phi Bayes. Trong thống kê Bayes, tất cả các tham số mô hình là "ngẫu nhiên".

— Shige
nguồn

1

Hấp dẫn. Nhưng vì cố định hoặc ngẫu nhiên có thể được coi là điều kiện của một biến đã cho (một cột dữ liệu nhất định) thay vì tham số liên quan đến biến đó, ... câu trả lời của bạn có áp dụng đầy đủ không?

— rolando2

1

@ rolando2 Trong mọi trường hợp, điều này chỉ đơn giản là sai. Cụ thể, đối với người Bayes, các tham số là bất cứ điều gì mà lý thuyết / khả năng nói rằng chúng là. Chỉ có sự không chắc chắn của một người về những giá trị họ nhận được được biểu diễn bằng phân phối xác suất. Do đó, đôi khi các tham số được mô hình hóa là cố định và không xác định ('cố định') và đôi khi đến từ phân phối ('ngẫu nhiên') mặc dù thiết bị sau thường được thúc đẩy bởi phán đoán có thể trao đổi thay vì tin tưởng vào quá trình lấy mẫu.

— liên hợp chiến binh

Điều này trái ngược với câu trả lời @ben. Tôi tin rằng câu trả lời là sai.

— SmallChess

9

Trong kinh tế lượng, các thuật ngữ thường được áp dụng trong các mô hình tuyến tính tổng quát, trong đó mô hình có dạng

y_{i t} = g (x_{i t} β + α_{i} + u_{i t}) .

$y_{it} = g(x_{it} \beta + \alpha_i + u_{it}).$

$\alpha_i \perp u_{it}$

$\alpha_i \not \perp u_{it}$

Trong các mô hình tuyến tính , sự hiện diện của một hiệu ứng ngẫu nhiên không dẫn đến sự không nhất quán của công cụ ước tính OLS. Tuy nhiên, sử dụng công cụ ước tính hiệu ứng ngẫu nhiên (như bình phương tối thiểu tổng quát khả thi) sẽ dẫn đến công cụ ước tính hiệu quả hơn .

Trong các mô hình phi tuyến tính , chẳng hạn như probit, tobit, ..., nói chung, sự hiện diện của một hiệu ứng ngẫu nhiên sẽ dẫn đến một công cụ ước tính không nhất quán. Sử dụng một công cụ ước tính hiệu ứng ngẫu nhiên sau đó sẽ khôi phục tính nhất quán.

Đối với cả mô hình tuyến tính và phi tuyến tính, các hiệu ứng cố định dẫn đến sai lệch. Tuy nhiên, trong các mô hình tuyến tính, có các phép biến đổi có thể được sử dụng (chẳng hạn như khác biệt đầu tiên hoặc giảm âm), trong đó OLS trên dữ liệu được chuyển đổi sẽ dẫn đến các ước tính phù hợp. Đối với các mô hình phi tuyến tính, có một vài trường hợp ngoại lệ tồn tại các phép biến đổi, logit hiệu ứng cố định là một ví dụ.

Ví dụ: Hiệu ứng ngẫu nhiên probit. Giả sử

y_{i t}^{*} = x_{i t} β + α_{i} + u_{i t}, α_{i} \sim N (0, σ_{α}^{2}), u_{i t} \sim N (0, 1) .

$y^*_{it} = x_{it} \beta + \alpha_i + u_{it}, \quad \alpha_i \sim \mathcal{N}(0,\sigma_\alpha^2), u_{it} \sim \mathcal{N}(0,1).$

và kết quả quan sát được là

y_{i t} = 1 (y_{i t}^{*} > 0) .

$y_{it} = \mathbb{1}(y^*_{it} > 0).$

Công cụ ước tính khả năng tối đa gộp lại tối thiểu hóa trung bình mẫu của

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log \prod_{t = 1}^{T} [G (x_{i t} β)]^{y_{i t}} [1 - G (x_{i t} β)]^{1 - y_{i t}} .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log \prod_{t=1}^T [G(x_{it}\beta)]^{y_{it}} [1 - G(x_{it}\beta)] ^{1-y_{it}}.$

Tất nhiên, ở đây nhật ký và sản phẩm đơn giản hóa, nhưng vì lý do sư phạm, điều này làm cho phương trình tương đương với công cụ ước tính hiệu ứng ngẫu nhiên, có dạng

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log \int \prod_{t = 1}^{T} [G (x_{i t} β + σ_{α} a)]^{y_{i t}} [1 - G (x_{i t} β + σ_{α} a)]^{1 - y_{i t}} ϕ (a) d a .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log \int \prod_{t=1}^T [G(x_{it}\beta + \sigma_\alpha a)]^{y_{it}} [1 - G(x_{it}\beta + \sigma_\alpha a )] ^{1-y_{it}} \phi(a) \mathrm{d}a.$

Ví dụ, chúng ta có thể tính gần đúng tích phân bằng cách lấy ngẫu nhiên rút ra các quy tắc ngẫu nhiên và đánh giá khả năng của từng loại. $R$

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log R^{- 1} \sum_{r = 1}^{R} \prod_{t = 1}^{T} [G (x_{i t} β + σ_{α} a_{r})]^{y_{i t}} [1 - G (x_{i t} β + σ_{α} a)]^{1 - y_{i t}}, a_{r} \sim N (0, 1) .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log R^{-1} \sum_{r=1}^R \prod_{t=1}^T [G(x_{it}\beta + \sigma_\alpha a_r)]^{y_{it}} [1 - G(x_{it}\beta + \sigma_\alpha a )] ^{1-y_{it}},\quad a_r \sim \mathcal{N}(0,1).$

Trực giác là như sau: chúng ta không biết loại nào, , mỗi quan sát là gì. Thay vào đó, chúng tôi đánh giá sản phẩm của khả năng theo thời gian cho một chuỗi các trận hòa. Loại có khả năng nhất để quan sát sẽ có khả năng cao nhất trong tất cả các thời kỳ và do đó sẽ chi phối đóng góp khả năng cho kết quả quan sát đó . $\alpha_i$ $i$ $T$

— Siêu nhân
nguồn

7

Không thực sự là một định nghĩa chính thức, nhưng tôi thích các slide sau: Các mô hình hỗn hợp và tại sao các nhà xã hội học nên sử dụng chúng ( gương ), từ Daniel Ezra Johnson. Một bản tóm tắt ngắn gọn 'được cung cấp trên slide 4. Mặc dù nó chủ yếu tập trung vào các nghiên cứu về tâm lý học, nhưng nó rất hữu ích như bước đầu tiên.

— chl
nguồn

Tôi nghĩ rằng tôi sẽ cần phải xem bản trình bày đó trong người để có được tác động đầy đủ.

— Andy W

Những slide này không hữu ích.

— bay

7

Mặc dù liên kết này có thể trả lời câu hỏi, tốt hơn là bao gồm các phần thiết yếu của câu trả lời ở đây và cung cấp liên kết để tham khảo. Câu trả lời chỉ liên kết có thể trở nên không hợp lệ nếu trang được liên kết thay đổi.

— Ben Bolker

1

liên kết đã chết

— baxx

3

Một quan điểm rất thực tế khác về các mô hình hiệu ứng ngẫu nhiên và cố định đến từ kinh tế lượng khi thực hiện hồi quy tuyến tính trên dữ liệu bảng . Nếu bạn đang ước tính mối liên quan giữa một biến giải thích và biến kết quả trong bộ dữ liệu với nhiều mẫu cho mỗi cá nhân / nhóm, thì đây là khung bạn muốn sử dụng.

Một ví dụ điển hình về dữ liệu bảng là các phép đo hàng năm từ một nhóm các cá nhân:

$gender_i$ $i$
${\Delta}weight_{it}$ $t$ $i$
$exercise_{it}$ $t$ $i$

Nếu chúng tôi đang cố gắng tìm hiểu mối quan hệ giữa tập thể dục và thay đổi cân nặng, chúng tôi sẽ thiết lập hồi quy sau:

${\Delta}weight_{it} = \beta_0$ $exercise_{it} + \beta_1gender_i + \alpha_i + \epsilon_{it}$

$\beta_0$
$\beta_1$
$\alpha_i$
$\epsilon_{it}$

$\beta_0$ $\beta_0$

$\alpha_i$ $\beta_1$ $gender_i$ $\alpha_i$

Vì vậy, câu hỏi quan trọng là xác định mô hình nào là phù hợp. Câu trả lời là bài kiểm tra Hausman . Để sử dụng nó, chúng tôi thực hiện cả hồi quy hiệu ứng cố định và ngẫu nhiên, sau đó áp dụng Thử nghiệm Hausman để xem liệu ước tính hệ số của chúng có phân kỳ đáng kể hay không. Nếu chúng phân kỳ, tính nội sinh đang hoạt động và một mô hình hiệu ứng cố định là lựa chọn tốt nhất. Nếu không, chúng ta sẽ đi với các hiệu ứng ngẫu nhiên.

— Tom Q.
nguồn

Sự khác biệt giữa hiệu ứng cố định, hiệu ứng ngẫu nhiên và mô hình hiệu ứng hỗn hợp là gì?

Hiệu ứng ngẫu nhiên và cố định

Thí dụ

Mối quan hệ với mô hình Bayes phân cấp