Làm thế nào để hồi quy tuyến tính sử dụng phân phối bình thường?


26

Trong hồi quy tuyến tính, mỗi giá trị dự đoán được giả định đã được chọn từ một phân phối bình thường của các giá trị có thể. Xem bên dưới.

Nhưng tại sao mỗi giá trị dự đoán được giả định là đến từ một phân phối bình thường? Làm thế nào để hồi quy tuyến tính sử dụng giả định này? Điều gì nếu các giá trị có thể không được phân phối bình thường?

nhập mô tả hình ảnh ở đây


2
Chỉ các lỗi tuân theo phân phối bình thường (ngụ ý xác suất có điều kiện của Y cho X là bình thường). Điều này có lẽ là truyền thống vì những lý do liên quan đến định lý giới hạn trung tâm. Nhưng bạn có thể thay thế bình thường bằng bất kỳ phân phối xác suất đối xứng nào và có cùng ước tính hệ số thông qua các bình phương tối thiểu. Điều khác biệt mặc dù sẽ là lỗi tiêu chuẩn còn lại, mức độ phù hợp và cách bạn xác nhận các giả định.
Kian

4
Các giả định thông thường chủ yếu đi vào suy luận - kiểm tra giả thuyết, các TCTD, PI. Nếu bạn đưa ra các giả định khác nhau, chúng sẽ khác nhau, ít nhất là trong các mẫu nhỏ.
Glen_b -Reinstate Monica

7
Ngẫu nhiên, đối với hồi quy tuyến tính thông thường, sơ đồ của bạn nên vẽ các đường cong bình thường theo chiều dọc, không theo đường chéo.
Glen_b -Reinstate Monica

Câu trả lời:


29

Hồi quy tuyến tính tự nó không cần giả định (gaussian) bình thường, các công cụ ước tính có thể được tính toán (theo bình phương tối thiểu tuyến tính) mà không cần bất kỳ giả định nào và có ý nghĩa hoàn hảo nếu không có nó.

Nhưng sau đó, như các nhà thống kê, chúng tôi muốn hiểu một số tính chất của phương pháp này, câu trả lời cho các câu hỏi như: liệu các ước lượng bình phương nhỏ nhất có tối ưu theo một nghĩa nào đó không? hoặc chúng ta có thể làm tốt hơn với một số ước tính thay thế? Sau đó, theo phân phối bình thường của các thuật ngữ lỗi, chúng tôi có thể chỉ ra rằng các công cụ ước tính này thực sự là tối ưu, chẳng hạn, chúng là "không thiên vị của phương sai tối thiểu", hoặc khả năng tối đa. Không có điều đó có thể được chứng minh mà không có giả định bình thường.

Ngoài ra, nếu chúng ta muốn xây dựng (và phân tích các thuộc tính của) khoảng tin cậy hoặc kiểm tra giả thuyết, thì chúng ta sử dụng giả định bình thường. Nhưng, thay vào đó, chúng ta có thể xây dựng khoảng tin cậy bằng một số phương tiện khác, chẳng hạn như bootstrapping. Sau đó, chúng ta không sử dụng giả định bình thường, nhưng, than ôi, không có điều đó, có lẽ chúng ta nên sử dụng một số công cụ ước tính khác hơn so với các công cụ bình phương nhỏ nhất, có thể là một số công cụ ước tính mạnh mẽ?

Trong thực tế, tất nhiên, phân phối bình thường nhiều nhất là một tiểu thuyết thuận tiện. Vì vậy, câu hỏi thực sự quan trọng là, chúng ta cần phải gần gũi với sự bình thường đến mức nào để yêu cầu sử dụng các kết quả được đề cập ở trên? Đó là một câu hỏi khó hơn nhiều! Kết quả tối ưu là không mạnh mẽ , do đó, ngay cả một sai lệch rất nhỏ so với tính quy tắc cũng có thể phá hủy sự tối ưu. Đó là một lập luận ủng hộ các phương pháp mạnh mẽ. Đối với một câu hỏi khác về câu hỏi đó, hãy xem câu trả lời của tôi về Tại sao chúng ta nên sử dụng lỗi t thay vì lỗi thông thường?

Một câu hỏi khác có liên quan là Tại sao tính quy phạm của phần dư "hầu như không quan trọng" cho mục đích ước tính đường hồi quy?

 EDIT

Câu trả lời này đã dẫn đến một cuộc thảo luận lớn trong các bình luận, một lần nữa dẫn đến câu hỏi mới của tôi: Hồi quy tuyến tính: bất kỳ phân phối không bình thường nào cho danh tính của OLS và MLE? mà cuối cùng đã có (ba) câu trả lời, đưa ra các ví dụ trong đó các phân phối không bình thường dẫn đến các ước lượng bình phương nhỏ nhất.


Lỗi bình phương tối thiểu tương đương với một giả định bình thường.
Neil G

4
Không có mâu thuẫn như vậy. Ví dụ, định lý Gauss-Markov nói rằng bình phương tối thiểu tuyến tính là tối ưu (theo nghĩa phương sai tối thiểu) trong số tất cả các ước lượng tuyến tính, mà không cần bất kỳ giả định phân phối (ngoài phương sai hiện có). Bình phương tối thiểu là một thủ tục số có thể được xác định độc lập với bất kỳ mô hình xác suất nào! Mô hình xác suất sau đó được sử dụng để phân tích quy trình này từ góc độ thống kê.
kjetil b halvorsen

2
@NeilG Chắc chắn MLE cho bình thường là bình phương nhỏ nhất nhưng điều đó không có nghĩa là bình phương tối thiểu phải đòi hỏi một giả định về tính quy tắc. Mặt khác, độ lệch lớn so với tính chuẩn có thể làm cho bình phương tối thiểu trở thành một lựa chọn kém (khi tất cả các ước lượng tuyến tính đều xấu).
Glen_b -Reinstate Monica

1
@NeilG Những gì tôi nói không có nghĩa là tương đương với LS và tính quy phạm, nhưng bạn nói rõ ràng chúng tương đương nhau, vì vậy tôi thực sự không nghĩ rằng hai tuyên bố của chúng tôi thậm chí gần với tautological.
Glen_b -Reinstate Monica

1
@Neil Bạn có thể chỉ ra cách tuyên bố của bạn thực sự ngụ ý những gì tôi nói không? Tôi thực sự không nhìn thấy nó.
Glen_b -Reinstate Monica

3

Thảo luận này Điều gì xảy ra nếu phần dư được phân phối bình thường, nhưng y thì không? đã giải quyết tốt câu hỏi này.

Nói tóm lại, đối với bài toán hồi quy, chúng tôi chỉ giả sử rằng đáp ứng là điều kiện bình thường dựa trên giá trị của x. Không nhất thiết là các biến độc lập hoặc phản ứng là độc lập.


1
  1. Nhưng tại sao mỗi giá trị dự đoán được giả định là đến từ một phân phối bình thường?

Không có lý do sâu sắc nào cho nó và bạn có thể tự do thay đổi các giả định phân phối, chuyển sang GLM hoặc hồi quy mạnh mẽ. LM (phân phối bình thường) là phổ biến vì dễ tính toán, khá ổn định và phần dư trong thực tế thường ít nhiều bình thường.

  1. Làm thế nào để hồi quy tuyến tính sử dụng giả định này?

Như bất kỳ hồi quy nào, mô hình tuyến tính (= hồi quy với lỗi bình thường) tìm kiếm các tham số tối ưu hóa khả năng cho giả định phân phối đã cho. Xem ở đây để biết ví dụ về tính toán rõ ràng về khả năng cho một mô hình tuyến tính. Nếu bạn lấy khả năng ghi nhật ký của mô hình tuyến tính, thì hóa ra tỷ lệ với tổng bình phương và việc tối ưu hóa có thể được tính toán khá thuận tiện.

  1. Điều gì nếu các giá trị có thể không được phân phối bình thường?

Nếu bạn muốn phù hợp với một mô hình với các phân phối khác nhau, các bước trong sách giáo khoa tiếp theo sẽ là các mô hình tuyến tính tổng quát (GLM), cung cấp các phân phối khác nhau hoặc các mô hình tuyến tính chung, vẫn bình thường, nhưng thư giãn độc lập. Nhiều lựa chọn khác là có thể. Nếu bạn chỉ muốn giảm hiệu ứng của các ngoại lệ, ví dụ bạn có thể xem xét hồi quy mạnh.


0

Sau khi xem lại câu hỏi, tôi nghĩ không có lý do gì để sử dụng phân phối bình thường trừ khi bạn muốn thực hiện một số loại suy luận về tham số hồi quy. Và bạn có thể áp dụng hồi quy tuyến tính và bỏ qua phân phối của thuật ngữ tiếng ồn.


2
Nó không có ý nghĩa nhiều với tôi.
SmallChess 17/05/2015

0

(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)βββββ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.