'Y phải được phân phối bình thường'
phải?
Trong các trường hợp mà bạn đề cập, đó là ngôn ngữ cẩu thả (viết tắt 'lỗi trong Y phải được phân phối bình thường' ), nhưng họ không thực sự (mạnh mẽ) nói rằng phản hồi phải được phân phối bình thường, hoặc ít nhất là nó dường như không Tôi rằng những lời của họ đã được dự định như thế.
Tài liệu khóa học của bang Pennsylvania
nói về "một biến liên tục "Y , nhưng cũng nói về " " như trong trong đó chúng ta có thể coi , như amip được gọi trong các nhận xét 'có điều kiện', thường được phân phối,YiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
Bài viết sử dụng và thay thế cho nhau. Trong toàn bộ bài viết, người ta nói về 'phân phối của Y', ví dụ: YYi
tuy nhiên tại một số điểm khác, họ cũng đề cập đến thay vì :YiY
Biến phụ thuộc KHÔNG cần phải được phân phối bình thường, nhưng nó thường giả sử phân phối từ một họ theo cấp số nhân (ví dụ: nhị thức, Poisson, đa thức, bình thường, ...)Yi
Trang web thống kê
là một mô tả cực kỳ ngắn gọn, đơn giản, cách điệu. Tôi không chắc bạn nên nghiêm túc. Ví dụ, nó nói về
.. yêu cầu tất cả các biến là đa biến bình thường ...
vì vậy đó không chỉ là biến trả lời,
và cũng là mô tả 'đa biến' là mơ hồ. Tôi không chắc làm thế nào để có được giải thích.
Bài viết trên wikipedia
có một bối cảnh bổ sung được giải thích trong ngoặc:
Hồi quy tuyến tính thông thường dự đoán giá trị dự kiến của một đại lượng chưa biết (biến phản ứng, biến ngẫu nhiên) là kết hợp tuyến tính của một tập hợp các giá trị quan sát (dự đoán) . Điều này ngụ ý rằng một sự thay đổi liên tục trong một yếu tố dự đoán dẫn đến sự thay đổi liên tục trong biến phản ứng (tức là mô hình đáp ứng tuyến tính). Điều này phù hợp khi biến trả lời có phân phối bình thường (theo trực giác, khi biến trả lời có thể thay đổi về cơ bản vô thời hạn theo một hướng không có "giá trị 0" cố định, hoặc nói chung hơn cho bất kỳ số lượng nào chỉ thay đổi theo một lượng tương đối nhỏ, ví dụ như con người độ cao).
Điều này 'không có giá trị 0 cố định' dường như chỉ ra trường hợp kết hợp tuyến tính khi có một miền vô hạn (từ trừ vô cực đến cộng vô cực) trong khi thường có nhiều biến có một số giá trị giới hạn hữu hạn (chẳng hạn như đếm không cho phép giá trị âm).y+ϵϵ∼N(0,σ)
Dòng cụ thể đã được thêm vào ngày 8 tháng 3 năm 2012 , nhưng lưu ý rằng dòng đầu tiên của bài viết Wikipedia vẫn đọc "một khái quát linh hoạt của hồi quy tuyến tính thông thường cho phép các biến trả lời có mô hình phân phối lỗi khác với phân phối bình thường" và không rất nhiều (không phải ở khắp mọi nơi) sai.
Phần kết luận
Vì vậy, dựa trên ba ví dụ này (thực sự có thể tạo ra những quan niệm sai lầm, hoặc ít nhất có thể bị hiểu lầm) tôi sẽ không nói rằng "quan niệm sai lầm này đã lan rộng" . Hoặc ít nhất với tôi dường như ý định của ba ví dụ này là cho rằng Y phải được phân phối bình thường (mặc dù tôi nhớ vấn đề này đã phát sinh trước đây trên stackexchange, sự hoán đổi giữa các lỗi phân phối thông thường và biến phản ứng phân tán thông thường rất dễ thực hiện).
Vì vậy, giả định rằng 'Y phải được phân phối bình thường' đối với tôi dường như không giống như một sự tin tưởng / hiểu lầm lan rộng (như trong một điều gì đó lan truyền như cá trích đỏ), nhưng giống như một lỗi phổ biến (không lan truyền mà chỉ được tạo ra một cách độc lập ).
Bình luận thêm
Một ví dụ về lỗi trên trang web này là trong câu hỏi sau đây
Điều gì xảy ra nếu phần dư được phân phối bình thường, nhưng y thì không?
Tôi sẽ coi đây là một câu hỏi mới bắt đầu. Nó không có trong các tài liệu như tài liệu khóa học của bang Pennsylvania, trang web Wikipedia và gần đây đã ghi chú trong các bình luận cuốn sách 'Mở rộng hồi quy tuyến tính với R'.
Các nhà văn của những tác phẩm đó hiểu chính xác các tài liệu. Thật vậy, họ sử dụng các cụm từ như 'Y phải được phân phối bình thường', nhưng dựa trên ngữ cảnh và các công thức được sử dụng, bạn có thể thấy rằng tất cả đều có nghĩa là 'Y, có điều kiện trên X, phải được phân phối bình thường' chứ không phải 'biên Y phải được phân phối bình thường '. Họ không tự hiểu sai ý tưởng và ít nhất ý tưởng này không phổ biến trong các nhà thống kê và những người viết sách và các tài liệu khóa học khác. Nhưng đọc sai những từ mơ hồ của họ thực sự có thể gây ra quan niệm sai lầm.