Bình thường X và Y có nhiều khả năng dẫn đến dư lượng phân phối bình thường không?


12

Ở đây, việc giải thích sai về giả định về tính quy tắc trong hồi quy tuyến tính đã được thảo luận (rằng 'tính chuẩn' đề cập đến X và / hoặc Y chứ không phải là phần dư), và người đăng hỏi liệu có thể có X và Y không phân phối bình thường không và vẫn còn dư phân phối bình thường.

Câu hỏi của tôi là: X và Y thường được phân phối có nhiều khả năng dẫn đến dư lượng phân phối bình thường? Đã có nhiều bài viết liên quan nhưng tôi không tin bất cứ ai khi hỏi câu hỏi này một cách cụ thể.

Tôi nhận ra đây có lẽ là một điểm tầm thường nếu chỉ có một hồi quy để làm, nhưng ít hơn nếu có nhiều bài kiểm tra. Vì vậy, giả sử tôi có 100 biến X mà tất cả đều có cùng độ lệch và tôi muốn kiểm tra tất cả. Nếu tôi chuyển đổi tất cả chúng thành một phân phối bình thường thì có khả năng tôi sẽ có ít biến X hơn cần kiểm tra lại (với biến đổi khác nhau / không biến đổi) do phần dư không phân phối thông thường hoặc chuyển đổi tiền hồi quy hoàn toàn tùy ý?


1
Để trả lời "nhiều khả năng", có lẽ chúng ta sẽ phải đặt ra một cái gì đó về phân phối chung, không chỉ là lợi nhuận.
Glen_b -Reinstate Monica

Câu trả lời:


15

Không. Phần dư là các giá trị điều kiện trên X (trừ giá trị trung bình dự đoán của Y tại mỗi điểm trong X ). Bạn có thể thay đổi X bất kỳ cách nào bạn muốn ( X + 10 , X - 1 / 5 , X / π ) và Y giá trị tương ứng với các X giá trị tại một điểm được đưa ra trong X sẽ không thay đổi. Do đó, phân phối có điều kiện của Y (nghĩa là Y | XYXYXXX+10X1/5X/πYXXYY|X) sẽ giống nhau. Đó là, nó sẽ bình thường hay không, giống như trước đây. (Để hiểu chủ đề này đầy đủ hơn, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: Điều gì xảy ra nếu phần dư được phân phối bình thường, nhưng Y thì không? )

Có gì thay đổi có thể làm (tùy theo tính chất của việc chuyển đổi dữ liệu bạn sử dụng) là thay đổi mối quan hệ chức năng giữa XY . Với một thay đổi phi tuyến tính trong X (ví dụ: để xóa xiên), một mô hình đã được chỉ định đúng trước đó sẽ bị sai. Các phép biến đổi phi tuyến tính của X thường được sử dụng để tuyến tính hóa mối quan hệ giữa XY , để làm cho mối quan hệ dễ hiểu hơn hoặc để giải quyết một câu hỏi lý thuyết khác. XXYXXXY

Để biết thêm về cách chuyển đổi phi tuyến tính có thể thay đổi mô hình và các câu hỏi mà mô hình trả lời (nhấn mạnh vào chuyển đổi nhật ký), nó có thể giúp bạn đọc các chuỗi CV xuất sắc này:

Các phép biến đổi tuyến tính có thể thay đổi các giá trị của các tham số của bạn, nhưng không ảnh hưởng đến mối quan hệ chức năng. Ví dụ, nếu bạn tập trung cả Y trước khi chạy hồi quy, đánh chặn, β 0 , sẽ trở thành 0 . Tương tự như vậy, nếu bạn chia X bởi một hằng số (nói đến sự thay đổi từ cm đến mét) độ dốc sẽ được nhân với hằng số đó (ví dụ, β 1 ( m ) = 100 × β 1 ( c m ) , có nghĩa là YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y sẽ tăng gấp 100 lần so với hơn 1 mét khi nó sẽ cao hơn 1 cm).


Mặt khác, các phép biến đổi phi tuyến tính của sẽ ảnh hưởng đến sự phân bố của phần dư. Trong thực tế, biến đổi Y là một gợi ý phổ biến để bình thường hóa phần dư. Việc chuyển đổi như vậy có làm cho chúng trở nên bình thường hơn hay ít hơn tùy thuộc vào phân phối ban đầu của phần dư ( không phải phân phối ban đầu của Y ) và phép biến đổi được sử dụng. Chiến lược chung là tối ưu hóa thông số λ của họ phân phối Box-Cox. Một lời cảnh báo là thích hợp ở đây: các phép biến đổi phi tuyến tính của Y có thể làm cho mô hình của bạn bị sai chính tả giống như các phép biến đổi phi tuyến tính của X có thể. Y YYλYX


XY

YXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

nhập mô tả hình ảnh ở đây

Trong các ô, chúng tôi thấy rằng cả hai biên có vẻ hợp lý bình thường và phân phối chung trông có vẻ hợp lý bình thường. Tuy nhiên, tính đồng nhất của phần dư thể hiện trong cốt truyện qq của chúng; cả hai đuôi rơi quá nhanh so với phân phối bình thường (như thực tế chúng phải).


0

Câu trả lời ngắn gọn là trong Lý thuyết hồi quy đơn giản cổ điển, X được cố định và giả định đã biết (xem, ví dụ: http://www.theanalysisfactor.com/the-distribution-of-indeperee-variabled-in-regression-models-2/ ), ngay cả khi không có bất kỳ lỗi đo lường nào khác, phiên bản beta tối thiểu của bạn có thể sai lệch và thậm chí không nhất quán (xem https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https .edu / mrg217 / public / measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & USG = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

Liên quan đến việc biến X thành một biến, Wikipedia về định lý Gauss-Markov nói rất ngắn gọn, để trích dẫn:

"Trong hầu hết các phương pháp điều trị OLS, dữ liệu X được coi là cố định. Giả định này được coi là không phù hợp với khoa học chủ yếu là không khoa học như kinh tế lượng. [2] Thay vào đó, các giả định của định lý Gaussuler Markov được nêu có điều kiện trên X "

mà tôi đọc như một sự chuyển đổi lớn không thể chối cãi từ khoa học sang nghệ thuật, hay nghệ thuật / khoa học.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.