Tại sao lỗi không có trong các mô hình X1 được sử dụng rộng rãi hơn?


11

Khi chúng tôi tính toán sai số chuẩn của hệ số hồi quy, chúng tôi không giải thích cho tính ngẫu nhiên trong ma trận thiết kế . Ví dụ, trong OLS, chúng tôi tính toán làXvar(β^)var((XTX)1XTY)=σ2(XTX)1

Nếu được coi là ngẫu nhiên, pháp luật của tổng phương sai sẽ, trong một nghĩa nào đó, đòi hỏi sự đóng góp bổ sung của phương sai của là tốt. I EXX

var(β^)=var(E(β^|X))+E(var(β^|X)).

Trong đó, nếu công cụ ước tính OLS thực sự không thiên vị, thì thuật ngữ đầu tiên sẽ biến mất vì kỳ vọng là một hằng số. Thuật ngữ thứ hai thực sự trở thành: .σ2cov(X)1

  1. Nếu một mô hình tham số cho được biết đến, tại sao chúng ta không thay thế bằng ước tính hiệp phương sai thực tế. Ví dụ, nếu được chỉ định điều trị ngẫu nhiên, thì phương sai nhị thức có phải là ước tính hiệu quả hơn không?XXTXXE(X)(1E(X))

  2. Tại sao chúng tôi không cân nhắc sử dụng các mô hình không tham số linh hoạt để ước tính các nguồn sai lệch có thể có trong ước tính OLS và giải thích đúng mức độ nhạy cảm của thiết kế (tức là phân phối ) trong thuật ngữ phương sai tổng luật đầu tiên ?Xvar(E(β^|X))


2
Tại sao một luật toán học "đòi hỏi" bất cứ điều gì? Chúng tôi sử dụng một mô hình để lý luận với dữ liệu để giải quyết các mục tiêu cụ thể. Khi những người đó hiểu hoặc dự đoán đáp ứng có điều kiện dựa trên giá trị được quan sát hoặc đo được , thì biến thể trong X sẽ có rất ít (nếu có bất cứ điều gì) liên quan đến câu hỏi thực chất - thực sự, việc kết hợp biến thể này trong quy trình của chúng tôi dường như hoàn toàn sai, gây hiểu lầm hoặc thậm chí vô nghĩa. Do đó, trả lời câu hỏi của bạn dường như đi xuống để đánh giá các tần số mà các loại vấn đề thống kê khác nhau gặp phải. X,X
whuber

1
@whuber Trọng tâm của tôi là suy luận. Quy luật của phương sai tổng thể dường như phù hợp hơn với cách giải thích thường xuyên về kết quả nghiên cứu. Chúng ta thường nói về "nếu nghiên cứu được nhân rộng" ... mà không tính đến thực tế là sự phân phối của có thể khác nếu nghiên cứu được nhân rộng. Sự cân bằng của giới tính có thể là 40% trong một mẫu nhưng 60% trong một mẫu khác chỉ đơn giản là kết quả ngẫu nhiên của cách nghiên cứu thu được. Trớ trêu thay, bootstrap phản ánh điều này nhưng không tạo ra bất kỳ sự thay đổi nào trong kết quả cho một sự kết hợp cụ thể của các hiệp phương sai. X
AdamO

2
Trước hết, nhiều nghiên cứu đặt dưới sự kiểm soát thử nghiệm, do đó, nó thậm chí không ngẫu nhiên. Thứ hai, nghiên cứu quan sát (trong đó X là ngẫu nhiên) thường chỉ quan tâm đến suy luận về sự phân bố có điều kiện của Y . Vì vậy, tập trung vào suy luận không phân biệt tình huống này với tình huống khác. Khi phân phối đầy đủ (chung) được quan tâm, bạn sẽ thấy nhiều người dùng đến các hình thức phân tích tương quan hoặc các thủ tục đa biến khác nhau. Không có thứ gọi là "bootstrap", bởi vì trong tình huống này, cách bạn lấy mẫu lại phụ thuộc vào mục tiêu cũng như mô hình của bạn. XXY.
whuber

1
@whuber Kiểm soát thử nghiệm được chỉ định ngẫu nhiên tại điểm bắt đầu nghiên cứu. Như tôi đã đề cập, đây là một trường hợp hấp dẫn: giả sử ngẫu nhiên là Bernoulli. Tại sao sử dụng ước tính thực nghiệm của ? Sử dụng khả năng tối đa: cov ( X ) = E ( X ) ( 1 - E ( X ) ) ? Bạn đã đúng về bootstrap, tôi đã đề cập đến bootstrap không tham số (vô điều kiện) trong đó "hàng" dữ liệu được lấy mẫu thay thế. cov(X)=XTXcov(X)=E(X)(1E(X))
Adam

2
Ngoài các trường hợp đặc biệt, không thực sự quan trọng nếu là ngẫu nhiên, vấn đề là nếu có lỗi đo lường trong X 1 . Nếu vậy, OLS phương pháp sẽ dẫn đến thiên vị & giảm ước tính trợ của β 1 . Trong trường hợp đó, lỗi trong các phương thức biến nên được sử dụng. X1X1β1
gung - Phục hồi Monica

Câu trả lời:


8

Câu hỏi của bạn (cộng với bình luận thêm trong các bình luận) dường như chủ yếu quan tâm đến trường hợp chúng tôi có một thử nghiệm ngẫu nhiên có kiểm soát trong đó nhà nghiên cứu chỉ định ngẫu nhiên một hoặc nhiều biến giải thích, dựa trên một số thiết kế ngẫu nhiên. Trong ngữ cảnh này, bạn muốn biết lý do tại sao chúng tôi sử dụng một mô hình coi các biến giải thích là các hằng số đã biết, thay vì coi chúng là các biến ngẫu nhiên từ phân phối lấy mẫu do áp dụng ngẫu nhiên. (Câu hỏi của bạn rộng hơn câu hỏi này, nhưng đây có vẻ là trường hợp quan tâm chính trong bài bình luận, vì vậy đây là câu hỏi tôi sẽ giải quyết.)

Lý do mà chúng ta dựa vào các biến giải thích, trong bối cảnh này, là trong bài toán hồi quy cho RCT, chúng ta vẫn quan tâm đến phân phối có điều kiện của biến trả lời cho các yếu tố dự đoán . Thật vậy, trong một RCT, chúng tôi quan tâm đến việc xác định các tác động nguyên nhân của biến giải thích X đến biến trả lời Y , mà chúng tôi sẽ xác định thông qua suy luận về phân phối có điều kiện (theo một số giao thức để tránh gây nhiễu). Sự ngẫu nhiên được áp đặt để phá vỡ sự phụ thuộc giữa biến giải thích X và bất kỳ biến gây nhiễu nào (nghĩa là ngăn chặn các liên kết cửa sau). Tuy nhiên, đối tượng suy luận trong bài toán vẫn là phân phối có điều kiện của biến trả lời cho các biến giải thích. Do đó, việc ước tính các tham số trong phân phối có điều kiện này vẫn hợp lý, sử dụng các phương pháp ước lượng có các đặc tính tốt để suy ra phân phối có điều kiện .

Đó là trường hợp bình thường áp dụng cho một RCT sử dụng các kỹ thuật hồi quy. Tất nhiên, có một số tình huống chúng ta có những mối quan tâm khác, và chúng ta thực sự có thể muốn kết hợp sự không chắc chắn về các biến giải thích. Kết hợp sự không chắc chắn trong các biến giải thích thường xảy ra trong hai trường hợp:

  • (1) Khi chúng ta vượt ra ngoài phân tích hồi quy và phân tích đa biến, lúc đó chúng ta quan tâm đến việc phân phối chung các biến giải thích và phản ứng, thay vì chỉ phân phối có điều kiện của cái sau được đưa ra trước. Có thể có các ứng dụng mà đây là mối quan tâm của chúng tôi và do đó chúng tôi sẽ vượt ra ngoài phân tích hồi quy và kết hợp thông tin về phân phối các biến giải thích.

  • (2) Trong một số ứng dụng hồi quy, mối quan tâm của chúng tôi là phân phối có điều kiện của biến trả lời có điều kiện trên một biến giải thích không quan sát được, trong đó chúng tôi giả sử rằng các biến giải thích được quan sát là có lỗi ("lỗi-biến-biến"). Trong trường hợp này, chúng tôi kết hợp tính không chắc chắn thông qua "lỗi trong biến". Lý do cho điều này là sự quan tâm của chúng tôi trong các trường hợp này là trong phân phối có điều kiện , có điều kiện trên một biến cơ bản không quan sát được .

Lưu ý rằng cả hai trường hợp này đều phức tạp hơn về mặt toán học so với phân tích hồi quy, vì vậy nếu chúng ta có thể thoát khỏi việc sử dụng phân tích hồi quy, điều đó thường được ưa thích hơn. Trong mọi trường hợp, trong hầu hết các ứng dụng phân tích hồi quy, mục tiêu là suy luận về phân phối có điều kiện của đáp ứng, đưa ra các biến giải thích có thể quan sát được, do đó những khái quát này trở nên không cần thiết.


Lưu ý rằng severs ngẫu nhiên nhân quả tác động từ nhiễu biến để biến ngẫu nhiên, nhưng nó không ảnh hưởng nhân quả sever từ biến ngẫu nhiên các biến nhiễu, và sau đó đến các phản ứng. Điều này có nghĩa là các giao thức khác (ví dụ: giả dược, mù, v.v.) có thể được yêu cầu để cắt đứt hoàn toàn tất cả các liên kết cửa sau trong phân tích nguyên nhân.


2
Câu trả lời tốt đẹp. Tôi sẽ thêm rằng AFAIK nếu bạn có phản hồi lỗi gaussian và phản hồi lỗi gaussian so với phương pháp hồi quy thông thường hoạt động và nó chỉ trở thành vấn đề nếu bạn a) quan sát phản hồi không có lỗi b) có phân phối phản hồi khác
Martin Modrák

2

X

Tôi đã trả lời cho một câu hỏi tương tự trước đây, sự khác biệt giữa điều hòa trên các biến hồi quy so với coi chúng là cố định là gì? , vì vậy ở đây tôi sẽ sao chép một phần câu trả lời của tôi ở đó:

(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψXθ=(β,σ2)(θ,ψ)Θ×Ψ

Xfψ(x)Yfθ(yX=x)θXθ

θfψ(x)xθθX=x

Trong các thí nghiệm được thiết kế, giả định của nó chủ yếu sẽ được giữ, thường với dữ liệu quan sát thì không. Một số ví dụ về các vấn đề sẽ là: hồi quy với các phản hồi bị trễ như các yếu tố dự đoán. Điều hòa trên các dự đoán trong trường hợp này cũng sẽ điều kiện trên các phản ứng! (Tôi sẽ thêm nhiều ví dụ).

§4.3


θXθXθ

Đối số phân tách này cũng hữu ích vì nó chỉ ra các trường hợp không thể sử dụng, ví dụ hồi quy với các phản hồi bị trễ như các yếu tố dự đoán.


1
XYθψ

Tôi không biết về PLS, nhưng sẽ cố gắng nghĩ về nó
kjetil b halvorsen

1
Câu trả lời hay! ...
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.