Trường hợp quan niệm sai lầm rằng Y phải được phân phối bình thường đến từ đâu?


45

Các nguồn dường như có uy tín cho rằng biến phụ thuộc phải được phân phối bình thường:

Giả định mô hình: được phân phối bình thường, lỗi được phân phối bình thường, và độc lập, và được sửa và phương sai không đổi .YeiN(0,σ2)Xσ2

Penn State, STAT 504 Phân tích dữ liệu rời rạc

Thứ hai, phân tích hồi quy tuyến tính đòi hỏi tất cả các biến phải đa biến thông thường.

StatisticsSolutions, Giả định của hồi quy tuyến tính

Điều này phù hợp khi biến trả lời có phân phối bình thường

Wikipedia, mô hình tuyến tính tổng quát

Có một lời giải thích tốt cho làm thế nào hoặc tại sao quan niệm sai lầm này đã lan rộng? Là nguồn gốc của nó được biết đến?

Liên quan


17
Buồn. Bạn đang làm việc tốt ở đây ...
jbowman

7
Tôi không biết về bất kỳ tình huống nào khi sử dụng hồi quy tuyến tính yêu cầu phân phối biên của hoặc khớp của tất cả các biến là đa biến thông thường. Chúng trông giống như những quan niệm sai lầm đối với tôi. Y
Matthew Drury

8
@MichaelCécick "Y thường được phân phối" là hoàn toàn sai. Kiểm tra nó trong R: X <- runif(n=100)sau Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)đó chơi với biểu đồ để thuyết phục bản thân rằng cả X và Y đều không được phân phối bình thường. Sau đó summary(lm(Y ~ X)), và chú ý rất kỹ đến mức độ chặn của 3 và độ dốc của X là 0,5. Giả định là các lỗi được phân phối bình thường.
Alexis

9
@Alexis Tôi tin rằng những gì Michael đã cố gắng nói là các giả định Quy tắc đa biến là đủ nhưng không cần thiết. Đó rõ ràng là cách người ta nên đọc trích dẫn Wikipedia. Báo giá thứ hai rõ ràng là sai trong việc khẳng định những giả định đó là cần thiết. Trích dẫn đầu tiên là mơ hồ nhưng có thể được đọc rộng rãi theo nghĩa được làm sáng tỏ bởi Michael.
whuber

6
Tất cả tôi đã nói là giả định bình thường ngụ ý một số tính chất nhất định. Ví dụ, trong hồi quy tuyến tính đơn giản nếu bạn giả sử các thuật ngữ lỗi là iid bình thường với giá trị trung bình bằng 0 và phương sai không đổi, ước lượng bình phương nhỏ nhất của các tham số hồi quy là khả năng tối đa. Giữ tất cả các giả định ngoại trừ bình phương tối thiểu bình phương không còn khả năng tối đa nhưng vẫn là phương sai tối thiểu không thiên vị.
Michael Chernick

Câu trả lời:


13

'Y phải được phân phối bình thường'

phải?


Trong các trường hợp mà bạn đề cập, đó là ngôn ngữ cẩu thả (viết tắt 'lỗi trong Y phải được phân phối bình thường' ), nhưng họ không thực sự (mạnh mẽ) nói rằng phản hồi phải được phân phối bình thường, hoặc ít nhất là nó dường như không Tôi rằng những lời của họ đã được dự định như thế.

Tài liệu khóa học của bang Pennsylvania

nói về "một biến liên tục "Y , nhưng cũng nói về " " như trong trong đó chúng ta có thể coi , như amip được gọi trong các nhận xét 'có điều kiện', thường được phân phối,Yi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

Bài viết sử dụng và thay thế cho nhau. Trong toàn bộ bài viết, người ta nói về 'phân phối của Y', ví dụ: YYi

  • khi giải thích một số biến thể của GLM (hồi quy logistic nhị phân),

    Thành phần ngẫu nhiên : Phân phối của được giả sử là , ...YBinomial(n,π)

  • trong một số định nghĩa

    Thành phần ngẫu nhiên - đề cập đến phân phối xác suất của biến trả lời ( ); ví dụ phân phối chuẩn cho trong hồi quy tuyến tính hoặc phân phối nhị thức cho trong hồi quy logistic nhị phân.YYY

tuy nhiên tại một số điểm khác, họ cũng đề cập đến thay vì :YiY

  • Biến phụ thuộc KHÔNG cần phải được phân phối bình thường, nhưng nó thường giả sử phân phối từ một họ theo cấp số nhân (ví dụ: nhị thức, Poisson, đa thức, bình thường, ...)Yi

Trang web thống kê

là một mô tả cực kỳ ngắn gọn, đơn giản, cách điệu. Tôi không chắc bạn nên nghiêm túc. Ví dụ, nó nói về

.. yêu cầu tất cả các biến là đa biến bình thường ...

vì vậy đó không chỉ là biến trả lời,

và cũng là mô tả 'đa biến' là mơ hồ. Tôi không chắc làm thế nào để có được giải thích.

Bài viết trên wikipedia

có một bối cảnh bổ sung được giải thích trong ngoặc:

Hồi quy tuyến tính thông thường dự đoán giá trị dự kiến ​​của một đại lượng chưa biết (biến phản ứng, biến ngẫu nhiên) là kết hợp tuyến tính của một tập hợp các giá trị quan sát (dự đoán) . Điều này ngụ ý rằng một sự thay đổi liên tục trong một yếu tố dự đoán dẫn đến sự thay đổi liên tục trong biến phản ứng (tức là mô hình đáp ứng tuyến tính). Điều này phù hợp khi biến trả lời có phân phối bình thường (theo trực giác, khi biến trả lời có thể thay đổi về cơ bản vô thời hạn theo một hướng không có "giá trị 0" cố định, hoặc nói chung hơn cho bất kỳ số lượng nào chỉ thay đổi theo một lượng tương đối nhỏ, ví dụ như con người độ cao).

Điều này 'không có giá trị 0 cố định' dường như chỉ ra trường hợp kết hợp tuyến tính khi có một miền vô hạn (từ trừ vô cực đến cộng vô cực) trong khi thường có nhiều biến có một số giá trị giới hạn hữu hạn (chẳng hạn như đếm không cho phép giá trị âm).y+ϵϵN(0,σ)

Dòng cụ thể đã được thêm vào ngày 8 tháng 3 năm 2012 , nhưng lưu ý rằng dòng đầu tiên của bài viết Wikipedia vẫn đọc "một khái quát linh hoạt của hồi quy tuyến tính thông thường cho phép các biến trả lời có mô hình phân phối lỗi khác với phân phối bình thường" và không rất nhiều (không phải ở khắp mọi nơi) sai.


Phần kết luận

Vì vậy, dựa trên ba ví dụ này (thực sự có thể tạo ra những quan niệm sai lầm, hoặc ít nhất có thể bị hiểu lầm) tôi sẽ không nói rằng "quan niệm sai lầm này đã lan rộng" . Hoặc ít nhất với tôi dường như ý định của ba ví dụ này là cho rằng Y phải được phân phối bình thường (mặc dù tôi nhớ vấn đề này đã phát sinh trước đây trên stackexchange, sự hoán đổi giữa các lỗi phân phối thông thường và biến phản ứng phân tán thông thường rất dễ thực hiện).

Vì vậy, giả định rằng 'Y phải được phân phối bình thường' đối với tôi dường như không giống như một sự tin tưởng / hiểu lầm lan rộng (như trong một điều gì đó lan truyền như cá trích đỏ), nhưng giống như một lỗi phổ biến (không lan truyền mà chỉ được tạo ra một cách độc lập ).


Bình luận thêm

Một ví dụ về lỗi trên trang web này là trong câu hỏi sau đây

Điều gì xảy ra nếu phần dư được phân phối bình thường, nhưng y thì không?

Tôi sẽ coi đây là một câu hỏi mới bắt đầu. Nó không có trong các tài liệu như tài liệu khóa học của bang Pennsylvania, trang web Wikipedia và gần đây đã ghi chú trong các bình luận cuốn sách 'Mở rộng hồi quy tuyến tính với R'.

Các nhà văn của những tác phẩm đó hiểu chính xác các tài liệu. Thật vậy, họ sử dụng các cụm từ như 'Y phải được phân phối bình thường', nhưng dựa trên ngữ cảnh và các công thức được sử dụng, bạn có thể thấy rằng tất cả đều có nghĩa là 'Y, có điều kiện trên X, phải được phân phối bình thường' chứ không phải 'biên Y phải được phân phối bình thường '. Họ không tự hiểu sai ý tưởng và ít nhất ý tưởng này không phổ biến trong các nhà thống kê và những người viết sách và các tài liệu khóa học khác. Nhưng đọc sai những từ mơ hồ của họ thực sự có thể gây ra quan niệm sai lầm.


3
+1 Điều đó nói rằng: Tôi nghĩ rằng tất cả chúng ta đã thấy rất nhiều câu hỏi khẳng định tính bình thường cận biên của Y quanh đây ... có một số quan niệm sai lầm. :)
Alexis

Có, tôi đồng ý rằng giả định 'y thường được phân phối' xảy ra thường xuyên (tôi không thể tìm thấy các ví dụ dễ dàng, nhưng đó có thể là do mọi người mô tả những điều này ở giữa các dòng và không phải với các từ khóa đơn giản). Tuy nhiên, tôi tin rằng đây là một cái gì đó 'phổ biến' không phải là thứ gì đó quá nhiều 'được lan truyền '. Và ít nhất, chắc chắn ba ví dụ được đưa ra bởi OP không mạnh lắm (không mạnh theo nghĩa chỉ ra sự lan truyền của quan niệm sai lầm, mặc dù chúng mô tả việc sử dụng ngôn ngữ bệnh lý và cách các lỗi có thể bắt nguồn).
Sextus Empiricus

@Martijn Weterings: Tôi muốn không đồng ý với tuyên bố của bạn "Tôi sẽ không nói rằng quan niệm sai lầm này đã lan rộng". Trong cuốn sách Mở rộng hồi quy tuyến tính với R, được sử dụng như yêu cầu đọc trong một số chương trình thống kê sau đại học, Julian Faraway nói trên trang xi trong Lời nói đầu của cuốn sách này rằng "Mô hình tuyến tính tiêu chuẩn không thể xử lý các phản ứng không bình thường, y, chẳng hạn như như số lượng hoặc tỷ lệ ".
ColorStatistic

@ColorStatistic, lưu ý bối cảnh và diễn giải mà tôi đưa ra cho 'phổ biến rộng rãi' (như trong một thứ gì đó lan truyền như cá trích đỏ). Mọi người mắc sai lầm, và những sai lầm này có thể có mặt khắp nơi. Nhưng nó không giống như trải ra như khi bị sao chép (ví dụ như một lỗi đã được sao chép và lan truyền là việc sử dụng bậc tự do trong các bảng dự phòng thay vì , xảy ra trong khoảng thời gian từ 1900 đến 1920) .....n1(r1)(c1)
Sextus Empiricus

1
@ColorStatistic, tôi mới xem qua một số phần của văn bản và rõ ràng tác giả không bị nhầm lẫn (dựa trên các công thức không mơ hồ). Ví dụ: sách thậm chí bắt đầu bằng: " trong đó thường được phân phối"y=β0+β1x1+...βpxp+ϵϵ . Thật vậy, người viết thường sử dụng các cụm từ như "phản hồi được ... phân phối". Nhưng, có nghĩa là phản ứng có điều kiện . Tôi coi điều này nhiều hơn như cách viết tốc ký và người viết không có nghĩa là truyền đạt theo nghĩa đen rằng phản ứng cận biên nên có phân phối cụ thể được đề cập.
Sextus Empiricus

29

Có một lời giải thích tốt cho làm thế nào / tại sao quan niệm sai lầm này đã lan rộng? Là nguồn gốc của nó được biết đến?

Chúng tôi thường dạy cho sinh viên đại học một phiên bản thống kê "đơn giản hóa" trong nhiều ngành. Tôi đang trong tâm lý học, và khi tôi cố gắng nói với sinh viên đại học rằng giá trị p là "xác suất của dữ liệu hay dữ liệu cực đoan khác cho rằng giả thuyết null là đúng", các đồng nghiệp nói với tôi rằng tôi đang nói chi tiết hơn tôi cần để che Rằng tôi đang làm cho nó trở nên khó khăn hơn nó, v.v. Vì các sinh viên trong các lớp học có sự thoải mái (hoặc thiếu) như vậy với các số liệu thống kê, các giảng viên thường giữ nó đơn giản: "Chúng tôi coi đó là một phát hiện đáng tin cậy nếu p <0,05, "chẳng hạn, thay vì cho họ định nghĩa thực sự của giá trị p .

Tôi nghĩ rằng đây là nơi giải thích cho lý do tại sao quan niệm sai lầm đã lan rộng. Chẳng hạn, bạn có thể viết mô hình như:

Y=β0+β1X+ϵ trong đóϵN(0,σϵ2)

Điều này có thể được viết lại như sau:

Y|XN(β0+β1X,σϵ2)

Điều đó có nghĩa là "Y, có điều kiện trên X, thường được phân phối với giá trị trung bình của các giá trị dự đoán và một số phương sai."

Điều này rất khó để giải thích, vì vậy người viết tốc ký có thể chỉ nói: "Y phải được phân phối bình thường". Hoặc khi nó được giải thích cho họ ban đầu, mọi người đã hiểu nhầm phần điều kiện vì nó thật sự khó hiểu.

Vì vậy, trong một nỗ lực để không khiến mọi thứ trở nên phức tạp khủng khiếp, các giảng viên chỉ đơn giản hóa những gì họ đang nói để không gây nhầm lẫn quá mức cho hầu hết các sinh viên. Và sau đó mọi người tiếp tục trong giáo dục thống kê hoặc thực hành thống kê với quan niệm sai lầm đó. Bản thân tôi đã không hiểu đầy đủ về khái niệm này cho đến khi tôi bắt đầu thực hiện mô hình Bayes ở Stan, điều này đòi hỏi bạn phải viết các giả định của mình theo cách này:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Ngoài ra, trong rất nhiều gói thống kê có GUI (nhìn vào bạn, SPSS), việc kiểm tra phân phối biên có được phân phối bình thường (biểu đồ đơn giản) dễ dàng hơn so với kiểm tra xem phần dư có được phân phối bình thường không (chạy hồi quy, lưu phần dư, chạy biểu đồ trên phần dư đó).

Vì vậy, tôi nghĩ rằng quan niệm sai lầm chủ yếu là do các giảng viên cố gắng loại bỏ các chi tiết để giữ cho sinh viên không bị nhầm lẫn, chính xác và nhầm lẫn giữa những người học nó theo cách chính xác, và cả hai đều được củng cố bằng cách dễ dàng kiểm tra tính bình thường cận biên trong hầu hết các gói thống kê thân thiện với người dùng.


2
Tôi nghĩ bạn đã đúng. Nhiều người không hiểu phần điều kiện. Họ chỉ nghĩ phân phối bình thường.
SmallChess

3
Tôi đồng ý rằng đây có thể là 'một' trong số các chế độ mà lỗi này xảy ra / lây lan. Tuy nhiên, tài liệu khóa học của bang Pennsylvania dường như không phải do sự đơn giản hóa 'có chủ ý' này và cũng là do cách viết ký hiệu cẩu thả. Nó là một chút giống như ghi chú (khóa học) nhỏ. Hoặc thích bình luận để stackexchange, đơn giản hóa trong ngôn ngữ. Ở một số nơi họ sử dụng các từ chính xác. (cá nhân, sơ đồ / sơ đồ của tôi tốt hơn từ / công thức của tôi, nhưng điều đó không có nghĩa là những gì tôi viết, nếu nó sai, nhất thiết là một ý tưởng sai)
Sextus Empiricus

1
@MartijnWeterings Đồng ý, rất dễ nhầm lẫn với ai đó bằng cách không sử dụng ngôn ngữ cụ thể. Thật khó để luôn luôn cụ thể với ngôn ngữ của bạn trong một cái gì đó trừu tượng như các giả định thống kê và nhiều người thông minh mắc lỗi đơn giản, dẫn đến những quan niệm sai lầm phổ biến như thế này.
Đánh dấu trắng

1
MarkWhite, tôi thực sự đánh giá cao sự chú ý của bạn đối với cách chúng tôi dạy ... Tôi nghĩ rằng điều đó nói lên một cách quan trọng đối với sự quan tâm của OP về "truyền bá quan niệm sai lầm" (ngoài các sắc thái của những gì là và không phải là một quan niệm sai lầm ).
Alexis

16

Phân tích hồi quy là khó khăn cho người mới bắt đầu bởi vì có những kết quả khác nhau được ngụ ý bởi các giả định bắt đầu khác nhau. Các giả định bắt đầu yếu hơn có thể biện minh cho một số kết quả, nhưng bạn có thể nhận được kết quả mạnh hơn khi bạn thêm các giả định mạnh hơn. Những người không quen thuộc với kết quả toán học đầy đủ của kết quả thường có thể hiểu sai các giả định bắt buộc cho kết quả, bằng cách đặt mô hình của họ quá yếu để có kết quả bắt buộc hoặc đặt ra một số giả định không cần thiết với niềm tin rằng những kết quả này là bắt buộc .

Mặc dù có thể thêm các giả định mạnh hơn để có kết quả bổ sung, phân tích hồi quy liên quan đến chính phân phối có điều kiện của vectơ đáp ứng. Nếu một mô hình vượt ra ngoài điều này thì nó đang đi vào lãnh thổ của phân tích đa biến và không hoàn toàn (chỉ) một mô hình hồi quy. Vấn đề còn phức tạp hơn bởi thực tế là người ta thường đề cập đến kết quả phân phối trong hồi quy mà không phải luôn luôn cẩn thận để xác định rằng chúng là phân phối có điều kiện (đưa ra các biến giải thích trong ma trận thiết kế). Trong trường hợp các mô hình vượt ra ngoài các phân phối có điều kiện (bằng cách giả sử phân phối biên cho các vectơ giải thích), người dùng nên cẩn thận để xác định sự khác biệt này; Thật không may, mọi người không phải lúc nào cũng cẩn thận với điều này.


Mô hình hồi quy tuyến tính Homoskedastic: Điểm khởi đầu sớm nhất thường được sử dụng là giả định dạng mô hình và hai thời điểm lỗi đầu tiên mà không có bất kỳ giả định nào về tính quy tắc:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Thiết lập này đủ để cho phép bạn lấy công cụ ước tính OLS cho các hệ số, công cụ ước lượng không thiên vị cho phương sai lỗi, phần dư và khoảnh khắc của tất cả các đại lượng ngẫu nhiên này (có điều kiện trên các biến giải thích trong ma trận thiết kế). Nó không cho phép bạn có được phân phối có điều kiện đầy đủ của các đại lượng này, nhưng nó cho phép kháng cáo các phân phối tiệm cận nếu lớn và một số giả định bổ sung được đặt vào hành vi giới hạn của . Để đi xa hơn, người ta thường giả sử một hình thức phân phối cụ thể cho vectơ lỗi.nx

Lỗi thông thường: Hầu hết các phương pháp điều trị của mô hình hồi quy tuyến tính homoskedastic đều cho rằng vectơ lỗi được phân phối bình thường, kết hợp với các giả định thời điểm đưa ra:

ε|xN(0,σ2I).

Giả định bổ sung này đủ để đảm bảo rằng công cụ ước tính OLS cho các hệ số là MLE cho mô hình, và điều đó cũng có nghĩa là công cụ ước tính hệ số và phần dư được phân phối bình thường và công cụ ước tính cho phương sai lỗi có phân bố bình phương tỷ lệ (tất cả có điều kiện về các biến giải thích trong ma trận thiết kế). Nó cũng đảm bảo rằng vectơ đáp ứng được phân phối theo điều kiện thông thường. Điều này cho kết quả phân phối có điều kiện dựa trên các biến giải thích trong phân tích, cho phép xây dựng các khoảng tin cậy và kiểm tra giả thuyết. Nếu nhà phân tích muốn đưa ra những phát hiện về phân phối biên của phản hồi, họ cần phải đi xa hơn và giả định một phân phối cho các biến giải thích trong mô hình.

Các biến giải thích chung thông thường: Một số phương pháp điều trị của mô hình hồi quy tuyến tính homoscedastic đi xa hơn các phương pháp điều trị tiêu chuẩn và không dựa trên các biến giải thích cố định. (Có thể cho rằng đây là một sự chuyển đổi ra khỏi mô hình hồi quy và phân tích đa biến.) Mô hình phổ biến nhất của loại này giả định rằng các vectơ giải thích là các vectơ ngẫu nhiên thông thường khớp IID. Để là vectơ giải thích thứ ( hàng thứ của ma trận thiết kế) chúng ta có:X(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Giả định bổ sung này là đủ để đảm bảo rằng vectơ đáp ứng được phân phối bình thường. Đây là một giả định mạnh mẽ và nó thường không được áp đặt trong hầu hết các vấn đề. Như đã nêu, điều này đưa mô hình ra ngoài lãnh thổ của mô hình hồi quy và phân tích đa biến.


1
Tôi thấy nó rất sâu sắc theo cách bạn đưa ra các giả định mạnh mẽ hơn từng cái một và mô tả các hàm ý.
ColorStatistic
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.