Nói một cách đơn giản, làm thế nào bạn sẽ giải thích (có lẽ với các ví dụ đơn giản) sự khác biệt giữa hiệu ứng cố định, hiệu ứng ngẫu nhiên và mô hình hiệu ứng hỗn hợp?
Nói một cách đơn giản, làm thế nào bạn sẽ giải thích (có lẽ với các ví dụ đơn giản) sự khác biệt giữa hiệu ứng cố định, hiệu ứng ngẫu nhiên và mô hình hiệu ứng hỗn hợp?
Câu trả lời:
Nhà thống kê Andrew Gelman nói rằng thuật ngữ 'hiệu ứng cố định' và 'hiệu ứng ngẫu nhiên' có ý nghĩa khác nhau tùy thuộc vào người sử dụng chúng. Có lẽ bạn có thể chọn ra một trong 5 định nghĩa áp dụng cho trường hợp của bạn. Nói chung, có thể tốt hơn là tìm các phương trình mô tả mô hình xác suất mà các tác giả đang sử dụng (khi đọc) hoặc viết ra mô hình xác suất đầy đủ mà bạn muốn sử dụng (khi viết).
Ở đây chúng tôi phác thảo năm định nghĩa mà chúng tôi đã thấy:
Hiệu ứng cố định là không đổi giữa các cá nhân và hiệu ứng ngẫu nhiên khác nhau. Ví dụ, trong một nghiên cứu tăng trưởng, một mô hình với ngẫu nhiên chặn và độ dốc cố định tương ứng với các đường song song cho các cá nhân khác nhau hoặc mô hình . Do đó Kreft và De Leeuw (1998) phân biệt hệ số cố định và ngẫu nhiên. b i y i t = a i + b t
Hiệu ứng được cố định nếu bản thân chúng thú vị hoặc ngẫu nhiên nếu có sự quan tâm đến dân số cơ bản. Searle, Casella và McCulloch (1992, Phần 1.4) khám phá sự khác biệt này theo chiều sâu.
Khi một mẫu cạn kiệt dân số, biến tương ứng được cố định; khi mẫu là một phần nhỏ (nghĩa là không đáng kể) của quần thể thì biến tương ứng là ngẫu nhiên. ((Green và Tukey, 1960)
Nếu một hiệu ứng được coi là giá trị nhận ra của một biến ngẫu nhiên, thì nó được gọi là hiệu ứng ngẫu nhiên. ((LaMotte, 1983)
Các hiệu ứng cố định được ước tính bằng cách sử dụng các bình phương tối thiểu (hoặc, nói chung là khả năng tối đa) và các hiệu ứng ngẫu nhiên được ước tính với độ co ngót (dự đoán không thiên vị tuyến tính trong thuật ngữ của Robinson, 1991). Định nghĩa này là tiêu chuẩn trong tài liệu mô hình hóa đa cấp (xem, ví dụ, Snijder và Bosker, 1999, Mục 4.2) và trong kinh tế lượng.
[ Gelman, 2004, Phân tích phương sai tại sao nó quan trọng hơn bao giờ hết. Biên niên sử Thống kê. ]
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Có những cuốn sách hay về điều này như Gelman và Hill . Những gì tiếp theo về cơ bản là một bản tóm tắt về quan điểm của họ.
Trước hết, bạn không nên quá chú ý đến thuật ngữ này. Trong thống kê, không bao giờ nên sử dụng biệt ngữ để thay thế cho sự hiểu biết toán học về chính các mô hình. Điều đó đặc biệt đúng với các mô hình hiệu ứng ngẫu nhiên và hỗn hợp. "Hỗn hợp" chỉ có nghĩa là mô hình có cả hiệu ứng cố định và ngẫu nhiên, vì vậy hãy tập trung vào sự khác biệt giữa cố định và ngẫu nhiên.
Giả sử bạn có một mô hình với một công cụ dự đoán phân loại, phân chia các quan sát của bạn thành các nhóm theo các giá trị danh mục. * Các hệ số mô hình, hoặc "hiệu ứng", liên quan đến công cụ dự đoán đó có thể là cố định hoặc ngẫu nhiên. Sự khác biệt thực tế quan trọng nhất giữa hai là:
Hiệu ứng ngẫu nhiên được ước tính với gộp một phần, trong khi hiệu ứng cố định thì không.
Nhóm một phần có nghĩa là, nếu bạn có một vài điểm dữ liệu trong một nhóm, ước tính hiệu ứng của nhóm sẽ dựa một phần vào dữ liệu phong phú hơn từ các nhóm khác. Đây có thể là một sự thỏa hiệp tuyệt vời giữa việc ước tính hiệu ứng bằng cách gộp hoàn toàn tất cả các nhóm, che giấu sự thay đổi cấp độ nhóm và ước tính hiệu ứng cho tất cả các nhóm hoàn toàn riêng biệt, có thể đưa ra ước tính kém cho các nhóm mẫu thấp.
Hiệu ứng ngẫu nhiên chỉ đơn giản là sự mở rộng của kỹ thuật gộp một phần như một mô hình thống kê mục đích chung. Điều này cho phép áp dụng nguyên tắc ý tưởng cho nhiều tình huống, bao gồm nhiều yếu tố dự đoán, các biến liên tục và phân loại hỗn hợp và các cấu trúc tương quan phức tạp. (Nhưng với sức mạnh lớn đi kèm với trách nhiệm lớn: sự phức tạp của mô hình hóa và suy luận được tăng lên đáng kể, và có thể làm phát sinh những thành kiến tinh tế đòi hỏi sự tinh tế đáng kể để tránh.)
Để thúc đẩy mô hình hiệu ứng ngẫu nhiên, hãy tự hỏi: tại sao bạn sẽ tập hợp một phần? Có lẽ bởi vì bạn nghĩ rằng các nhóm nhỏ là một phần của một số nhóm lớn hơn với hiệu ứng trung bình chung. Nhóm phương tiện có thể sai lệch một chút so với ý nghĩa của nhóm lớn, nhưng không phải là một lượng tùy ý. Để chính thức hóa ý tưởng đó, chúng tôi cho rằng các độ lệch tuân theo phân phối, điển hình là Gaussian. Đó là nơi "ngẫu nhiên" trong các hiệu ứng ngẫu nhiên xuất hiện: chúng ta giả sử độ lệch của các nhóm con từ cha mẹ theo sự phân phối của một biến ngẫu nhiên. Một khi bạn có ý tưởng này trong đầu, các phương trình mô hình hiệu ứng hỗn hợp diễn ra một cách tự nhiên.
Thật không may, người dùng mô hình hiệu ứng hỗn hợp thường có những định kiến sai về hiệu ứng ngẫu nhiên là gì và chúng khác với hiệu ứng cố định như thế nào. Mọi người nghe thấy "ngẫu nhiên" và nghĩ rằng nó có nghĩa là một cái gì đó rất đặc biệt về hệ thống được mô hình hóa, giống như các hiệu ứng cố định phải được sử dụng khi một cái gì đó "cố định" trong khi các hiệu ứng ngẫu nhiên phải được sử dụng khi một cái gì đó được "lấy mẫu ngẫu nhiên". Nhưng không có gì đặc biệt ngẫu nhiên khi giả định rằng các hệ số mô hình đến từ một phân phối; nó chỉ là một ràng buộc mềm, tương tự như hình phạt được áp dụng cho các hệ số mô hình trong hồi quy sườn. Có nhiều tình huống khi bạn có thể hoặc không muốn sử dụng các hiệu ứng ngẫu nhiên và chúng không nhất thiết phải liên quan nhiều đến sự khác biệt giữa "cố định" và "ngẫu nhiên"
Thật không may, sự nhầm lẫn khái niệm gây ra bởi các điều khoản này đã dẫn đến một sự nhầm lẫn của các định nghĩa mâu thuẫn . Trong năm định nghĩa tại liên kết này, chỉ có số 4 là hoàn toàn chính xác trong trường hợp chung, nhưng nó cũng hoàn toàn không chính xác. Bạn phải đọc toàn bộ giấy tờ và sách (hoặc thất bại trong bài viết này) để hiểu định nghĩa đó ngụ ý gì trong công việc thực tế.
Hãy xem xét một trường hợp trong đó mô hình hiệu ứng ngẫu nhiên có thể hữu ích. Giả sử bạn muốn ước tính thu nhập hộ gia đình trung bình của Hoa Kỳ bằng mã ZIP. Bạn có một bộ dữ liệu lớn chứa các quan sát về thu nhập và mã ZIP của các hộ gia đình. Một số mã ZIP được thể hiện tốt trong bộ dữ liệu, nhưng những mã khác chỉ có một vài hộ gia đình.
Đối với mô hình ban đầu của bạn, rất có thể bạn sẽ có thu nhập trung bình trong mỗi ZIP. Điều này sẽ hoạt động tốt khi bạn có nhiều dữ liệu cho một ZIP, nhưng các ước tính cho các ZIP được lấy mẫu kém của bạn sẽ chịu sự chênh lệch cao. Bạn có thể giảm thiểu điều này bằng cách sử dụng công cụ ước tính hao hụt (còn gọi là gộp một phần), điều này sẽ đẩy các giá trị cực đoan về thu nhập trung bình trên tất cả các mã ZIP.
Nhưng bạn nên làm bao nhiêu co rút / gộp cho một ZIP cụ thể? Theo trực giác, nó nên phụ thuộc vào những điều sau đây:
Nếu bạn mô hình mã ZIP là một hiệu ứng ngẫu nhiên, ước tính thu nhập trung bình trong tất cả các mã ZIP sẽ phải chịu một sự thu hẹp có căn cứ thống kê, có tính đến tất cả các yếu tố trên.
Phần tốt nhất là các mô hình hiệu ứng ngẫu nhiên và hỗn hợp tự động xử lý (4), ước lượng biến thiên, cho tất cả các hiệu ứng ngẫu nhiên trong mô hình. Điều này khó hơn so với cái nhìn đầu tiên: bạn có thể thử phương sai của trung bình mẫu cho mỗi ZIP, nhưng điều này sẽ bị sai lệch cao, bởi vì một số phương sai giữa các ước tính cho các ZIP khác nhau chỉ là phương sai lấy mẫu. Trong một mô hình hiệu ứng ngẫu nhiên, quá trình suy luận chiếm lấy phương sai lấy mẫu và thu nhỏ ước lượng phương sai tương ứng.
Có (1) - (4), một mô hình hiệu ứng ngẫu nhiên / hỗn hợp có thể xác định độ co thích hợp cho các nhóm mẫu thấp. Nó cũng có thể xử lý các mô hình phức tạp hơn nhiều với nhiều yếu tố dự đoán khác nhau.
Nếu điều này nghe có vẻ như mô hình Bayes phân cấp đối với bạn, thì bạn đã đúng - đó là một họ hàng gần nhưng không giống nhau. Các mô hình hiệu ứng hỗn hợp được phân cấp theo cách chúng tạo ra các phân phối cho các tham số tiềm ẩn, không quan sát được, nhưng chúng thường không hoàn toàn bằng Bayesian vì các siêu âm cấp cao nhất sẽ không được cung cấp cho các mục sư thích hợp. Ví dụ, trong ví dụ trên, rất có thể chúng ta sẽ coi thu nhập trung bình trong một ZIP nhất định là một mẫu từ phân phối bình thường, với giá trị trung bình và sigma chưa biết được ước tính bằng quy trình phù hợp hiệu ứng hỗn hợp. Tuy nhiên, một mô hình hiệu ứng hỗn hợp (không phải Bayes) thường sẽ không có trước về trung bình và sigma chưa biết, vì vậy nó không hoàn toàn là Bayes. Điều đó nói rằng, với một tập dữ liệu có kích thước khá, mô hình hiệu ứng hỗn hợp tiêu chuẩn và biến thể Bayes hoàn toàn sẽ thường cho kết quả rất giống nhau.
* Mặc dù nhiều phương pháp điều trị của chủ đề này tập trung vào một định nghĩa hẹp về "nhóm", nhưng thực tế khái niệm này rất linh hoạt: nó chỉ là một tập hợp các quan sát có chung một thuộc tính. Một nhóm có thể bao gồm nhiều quan sát của một người, hoặc nhiều người trong một trường học, hoặc nhiều trường học trong một huyện, hoặc nhiều loại trái cây, hoặc nhiều loại rau từ cùng một vụ thu hoạch hoặc nhiều vụ thu hoạch của cùng một loại rau, vv Bất kỳ biến phân loại có thể được sử dụng như một biến nhóm.
Tôi đã viết về điều này trong một chương sách về các mô hình hỗn hợp (chương 13 trong Fox, Neg rời-Yankelevich và Sosa 2014 ); các trang có liên quan (tr. 311-315) có sẵn trên Google Sách . Tôi nghĩ rằng câu hỏi giảm xuống "các định nghĩa về hiệu ứng cố định và ngẫu nhiên là gì?" (một "mô hình hỗn hợp" chỉ là một mô hình có chứa cả hai). Thảo luận của tôi nói ít hơn một chút về định nghĩa chính thức của họ (mà tôi sẽ nói đến bài báo Gelman được liên kết bởi câu trả lời của @ JohnSalvatier ở trên) và nhiều hơn về các tính chất và tiện ích thực tế của họ. Dưới đây là một số trích đoạn:
Quan điểm truyền thống về các hiệu ứng ngẫu nhiên là một cách để thực hiện các kiểm tra thống kê chính xác khi một số quan sát có tương quan.
Chúng ta cũng có thể nghĩ về các hiệu ứng ngẫu nhiên như một cách để kết hợp thông tin từ các cấp độ khác nhau trong một biến nhóm.
Hiệu ứng ngẫu nhiên đặc biệt hữu ích khi chúng tôi có (1) nhiều cấp độ (ví dụ: nhiều loài hoặc khối), (2) dữ liệu tương đối ít trên mỗi cấp độ (mặc dù chúng tôi cần nhiều mẫu từ hầu hết các cấp độ) và (3) không đồng đều lấy mẫu qua các cấp (hộp 13.1).
Những người thường xuyên và Bayes định nghĩa các hiệu ứng ngẫu nhiên hơi khác nhau, điều này ảnh hưởng đến cách họ sử dụng chúng. Những người thường xuyên định nghĩa các hiệu ứng ngẫu nhiên là các biến phân loại có mức độ được chọn ngẫu nhiên từ một dân số lớn hơn, ví dụ, các loài được chọn ngẫu nhiên từ danh sách các loài đặc hữu. Bayes định nghĩa các hiệu ứng ngẫu nhiên là tập hợp các biến có tham số [tất cả] được rút ra từ phân phối [giống nhau]. Định nghĩa thường xuyên là mạch lạc về mặt triết học, và bạn sẽ gặp các nhà nghiên cứu (bao gồm cả các nhà phê bình và giám sát viên), những người khăng khăng đòi hỏi, nhưng thực tế nó có thể có vấn đề. Ví dụ, nó ngụ ý rằng bạn không thể sử dụng các loài làm hiệu ứng ngẫu nhiên khi bạn đã quan sát tất cả các loài tại địa điểm hiện trường của bạn vì danh sách các loài không phải là một mẫu từ quần thể lớn hơn hoặc sử dụng năm như một hiệu ứng ngẫu nhiên, do các nhà nghiên cứu hiếm khi thực hiện một thí nghiệm trong những năm được lấy mẫu ngẫu nhiên, họ thường sử dụng một chuỗi năm liên tiếp hoặc tập hợp những năm hỗn loạn khi họ có thể tham gia vào lĩnh vực này.
Các hiệu ứng ngẫu nhiên cũng có thể được mô tả như các biến dự đoán mà bạn quan tâm khi đưa ra các suy luận về phân phối giá trị (nghĩa là phương sai giữa các giá trị của phản hồi ở các mức khác nhau) thay vì kiểm tra sự khác biệt của các giá trị giữa các mức cụ thể.
Mọi người đôi khi nói rằng các hiệu ứng ngẫu nhiên là các yếu tố mà bạn không quan tâm. Điều này không phải lúc nào cũng đúng. Mặc dù thường xảy ra trong các thí nghiệm sinh thái (trong đó sự khác biệt giữa các vị trí thường chỉ gây phiền toái), đôi khi nó rất được quan tâm, ví dụ như trong các nghiên cứu tiến hóa trong đó sự khác biệt giữa các kiểu gen là nguyên liệu thô cho chọn lọc tự nhiên hoặc trong nghiên cứu nhân khẩu học trong đó sự thay đổi giữa các năm làm giảm tốc độ tăng trưởng dài hạn. Trong một số trường hợp, các hiệu ứng cố định cũng được sử dụng để kiểm soát biến thể không thú vị, ví dụ: sử dụng khối lượng như một hiệp phương sai để kiểm soát các hiệu ứng kích thước cơ thể.
Bạn cũng sẽ nghe thấy rằng bạn không thể nói bất cứ điều gì về giá trị (dự đoán) của chế độ có điều kiện. Điều này không đúng hoặc bạn không thể chính thức kiểm tra một giả thuyết khống rằng giá trị đó bằng 0 hoặc là các giá trị của hai mức khác nhau là bằng nhau, nhưng vẫn hoàn toàn hợp lý khi xem xét giá trị dự đoán và thậm chí để tính toán một lỗi tiêu chuẩn của giá trị dự đoán (ví dụ: xem các thanh lỗi xung quanh các chế độ có điều kiện trong hình 13.1).
Khung Bayes có định nghĩa đơn giản hơn về các hiệu ứng ngẫu nhiên. Theo cách tiếp cận Bayes, hiệu ứng cố định là một hiệu ứng mà chúng tôi ước tính từng tham số (ví dụ: giá trị trung bình của từng loài trong một chi) một cách độc lập (với các linh mục được chỉ định độc lập), trong khi đối với hiệu ứng ngẫu nhiên, các tham số cho mỗi cấp được mô hình hóa như được vẽ từ một phân phối (thường là bình thường); trong ký hiệu thống kê tiêu chuẩn, .
Tôi đã nói ở trên rằng các hiệu ứng ngẫu nhiên là hữu ích nhất khi biến nhóm có nhiều mức đo. Ngược lại, các hiệu ứng ngẫu nhiên thường không hiệu quả khi biến nhóm có quá ít cấp độ. Bạn thường không thể sử dụng các hiệu ứng ngẫu nhiên khi biến nhóm có ít hơn năm cấp và ước tính phương sai của hiệu ứng ngẫu nhiên không ổn định với ít hơn tám cấp, bởi vì bạn đang cố ước tính phương sai từ một mẫu rất nhỏ.
Hiệu ứng cố định: Một cái gì đó mà người thí nghiệm trực tiếp thao tác và thường có thể lặp lại, ví dụ, quản lý thuốc - một nhóm được dùng thuốc, một nhóm được dùng giả dược.
Hiệu ứng ngẫu nhiên: Nguồn của biến thể ngẫu nhiên / đơn vị thử nghiệm, ví dụ, các cá nhân được rút ra (ngẫu nhiên) từ một quần thể cho một thử nghiệm lâm sàng. Hiệu ứng ngẫu nhiên ước tính độ biến thiên
Hiệu ứng hỗn hợp: Bao gồm cả hai, hiệu ứng cố định trong các trường hợp này là ước tính các hệ số mức dân số, trong khi các hiệu ứng ngẫu nhiên có thể giải thích cho sự khác biệt cá nhân trong phản ứng với một hiệu ứng, ví dụ, mỗi người nhận được cả thuốc và giả dược trong các trường hợp khác nhau, cố định tác dụng ước tính tác dụng của thuốc, các điều khoản tác dụng ngẫu nhiên sẽ cho phép mỗi người phản ứng với thuốc khác nhau.
Các loại chung của hiệu ứng hỗn hợp - các biện pháp lặp đi lặp lại, theo chiều dọc, phân cấp, chia lô.
Tôi đến câu hỏi này từ đây , một bản sao có thể.
Đã có một số câu trả lời xuất sắc, nhưng như đã nêu trong câu trả lời được chấp nhận, có nhiều cách sử dụng khác nhau (nhưng có liên quan) của thuật ngữ này, vì vậy có thể có giá trị khi đưa ra viễn cảnh như được sử dụng trong kinh tế lượng, mà dường như chưa được đề cập đầy đủ ở đây .
m
Đây là mã tạo ra dữ liệu và tạo ra ước tính RE dương và ước tính FE chính xác. (Điều đó nói rằng, ước tính RE cũng sẽ âm tính với các hạt giống khác, xem ở trên.)
library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12
step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
X[,i] = runif(m,i,i+1)
X[,i] = rnorm(m,i)
y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)
}
stackX = as.vector(X)
stackY = as.vector(y)
darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)
unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX)
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")
Đầu ra:
> fe
Model Formula: stackY ~ stackX
Coefficients:
stackX
-1.0451
> re
Model Formula: stackY ~ stackX
Coefficients:
(Intercept) stackX
18.34586 0.77031
Sự khác biệt chỉ có ý nghĩa trong bối cảnh thống kê phi Bayes. Trong thống kê Bayes, tất cả các tham số mô hình là "ngẫu nhiên".
Trong kinh tế lượng, các thuật ngữ thường được áp dụng trong các mô hình tuyến tính tổng quát, trong đó mô hình có dạng
Trong các mô hình tuyến tính , sự hiện diện của một hiệu ứng ngẫu nhiên không dẫn đến sự không nhất quán của công cụ ước tính OLS. Tuy nhiên, sử dụng công cụ ước tính hiệu ứng ngẫu nhiên (như bình phương tối thiểu tổng quát khả thi) sẽ dẫn đến công cụ ước tính hiệu quả hơn .
Trong các mô hình phi tuyến tính , chẳng hạn như probit, tobit, ..., nói chung, sự hiện diện của một hiệu ứng ngẫu nhiên sẽ dẫn đến một công cụ ước tính không nhất quán. Sử dụng một công cụ ước tính hiệu ứng ngẫu nhiên sau đó sẽ khôi phục tính nhất quán.
Đối với cả mô hình tuyến tính và phi tuyến tính, các hiệu ứng cố định dẫn đến sai lệch. Tuy nhiên, trong các mô hình tuyến tính, có các phép biến đổi có thể được sử dụng (chẳng hạn như khác biệt đầu tiên hoặc giảm âm), trong đó OLS trên dữ liệu được chuyển đổi sẽ dẫn đến các ước tính phù hợp. Đối với các mô hình phi tuyến tính, có một vài trường hợp ngoại lệ tồn tại các phép biến đổi, logit hiệu ứng cố định là một ví dụ.
Ví dụ: Hiệu ứng ngẫu nhiên probit. Giả sử
và kết quả quan sát được là
Công cụ ước tính khả năng tối đa gộp lại tối thiểu hóa trung bình mẫu của
Tất nhiên, ở đây nhật ký và sản phẩm đơn giản hóa, nhưng vì lý do sư phạm, điều này làm cho phương trình tương đương với công cụ ước tính hiệu ứng ngẫu nhiên, có dạng
Ví dụ, chúng ta có thể tính gần đúng tích phân bằng cách lấy ngẫu nhiên rút ra các quy tắc ngẫu nhiên và đánh giá khả năng của từng loại.
Trực giác là như sau: chúng ta không biết loại nào, , mỗi quan sát là gì. Thay vào đó, chúng tôi đánh giá sản phẩm của khả năng theo thời gian cho một chuỗi các trận hòa. Loại có khả năng nhất để quan sát sẽ có khả năng cao nhất trong tất cả các thời kỳ và do đó sẽ chi phối đóng góp khả năng cho kết quả quan sát đó . i T
Không thực sự là một định nghĩa chính thức, nhưng tôi thích các slide sau: Các mô hình hỗn hợp và tại sao các nhà xã hội học nên sử dụng chúng ( gương ), từ Daniel Ezra Johnson. Một bản tóm tắt ngắn gọn 'được cung cấp trên slide 4. Mặc dù nó chủ yếu tập trung vào các nghiên cứu về tâm lý học, nhưng nó rất hữu ích như bước đầu tiên.
Một quan điểm rất thực tế khác về các mô hình hiệu ứng ngẫu nhiên và cố định đến từ kinh tế lượng khi thực hiện hồi quy tuyến tính trên dữ liệu bảng . Nếu bạn đang ước tính mối liên quan giữa một biến giải thích và biến kết quả trong bộ dữ liệu với nhiều mẫu cho mỗi cá nhân / nhóm, thì đây là khung bạn muốn sử dụng.
Một ví dụ điển hình về dữ liệu bảng là các phép đo hàng năm từ một nhóm các cá nhân:
Nếu chúng tôi đang cố gắng tìm hiểu mối quan hệ giữa tập thể dục và thay đổi cân nặng, chúng tôi sẽ thiết lập hồi quy sau:
Vì vậy, câu hỏi quan trọng là xác định mô hình nào là phù hợp. Câu trả lời là bài kiểm tra Hausman . Để sử dụng nó, chúng tôi thực hiện cả hồi quy hiệu ứng cố định và ngẫu nhiên, sau đó áp dụng Thử nghiệm Hausman để xem liệu ước tính hệ số của chúng có phân kỳ đáng kể hay không. Nếu chúng phân kỳ, tính nội sinh đang hoạt động và một mô hình hiệu ứng cố định là lựa chọn tốt nhất. Nếu không, chúng ta sẽ đi với các hiệu ứng ngẫu nhiên.