Những lợi thế của hồi quy tuyến tính so với hồi quy lượng tử là gì?


15

Các hồi quy tuyến tính mô hình làm cho một loạt các giả định rằng hồi quy quantile không, và nếu các giả định của hồi quy tuyến tính được đáp ứng, sau đó trực giác của tôi (và một số kinh nghiệm rất hạn chế) là hồi quy trung bình sẽ cho kết quả gần giống như hồi quy tuyến tính.

Vậy, hồi quy tuyến tính có những lợi thế gì? Nó chắc chắn quen thuộc hơn, nhưng khác hơn thế?


3
Để 'quen thuộc hơn' tôi sẽ thêm 'khả năng diễn giải' và 'ổn định', nhưng đối với tôi, một trong những lợi thế của hồi quy tuyến tính là những gì nó cho bạn biết về giá trị trung bình và mức độ đại diện của dân số mẫu (phần dư rất nhiều thông tin) . Hồi quy tuyến tính có giá trị lớn khi các giả định của nó được đáp ứng và giá trị tốt khi chúng không được đáp ứng.
JustGettin Bắt đầu

5
Tôi sẽ lập luận rằng một vấn đề quan trọng đã được thảo luận trong hai chủ đề này: stats.stackexchange.com/questions/153348/ Kẻstats.stackexchange.com/questions/146077/ hiệu quả, và, thậm chí, có thể tối ưu nhất định các giả định
Christoph Hanck

1
Nói thêm, nhưng một điểm nhỏ, người ta có thể thêm vào tính khả dụng của các giải pháp dạng đóng, rõ ràng không có sẵn, giả sử, LAD, có thể làm cho các kỹ thuật như vậy ít hấp dẫn hơn đối với các học viên.
Christoph Hanck

1
Một câu trả lời có thể giống như so sánh trường hợp đơn giản ước tính một tham số dân số duy nhất, sau đó cho thấy rằng các lỗi bình phương nhỏ nhất hoạt động tốt hơn với các lỗi Gaussian và phần dư tuyệt đối (cũng sử dụng các giả định) thực hiện tốt hơn cho các loại lỗi khác nhau. Nhưng sau đó, câu hỏi này là về các mô hình tuyến tính phức tạp hơn và vấn đề bắt đầu phức tạp và rộng hơn. Trực giác của vấn đề đơn giản (ước tính một giá trị trung bình / trung bình) hoạt động cho một mô hình lớn hơn, nhưng nó nên được giải quyết bao nhiêu? Và làm thế nào để so sánh, mạnh mẽ chống lại các ngoại lệ, phân phối, tính toán?
Sextus Empiricus

2
Trong trường hợp của tôi, tôi đã tìm thấy hồi quy lượng tử đẹp hơn nhiều để giải thích cho những người không có kỹ thuật khi biến phản ứng bị sai lệch (ví dụ: chi tiêu của khách hàng) và giới thiệu bước chuyển đổi / chức năng liên kết che khuất toàn bộ phân tích. Theo nghĩa đó, tôi sẽ tranh luận khẳng định " hồi quy trung vị sẽ cho kết quả gần như giống hệt như hồi quy tuyến tính " như là một chút đơn giản hóa; nó không, đặc biệt là khi xử lý các biến phản ứng có khả năng sai lệch.
usεr11852 nói Phục hồi Monic

Câu trả lời:


10

Người ta thường nói rằng tối thiểu hóa phần dư bình phương tối thiểu được ưu tiên hơn tối thiểu hóa phần dư tuyệt đối vì lý do là nó đơn giản hơn về mặt tính toán . Nhưng, nó cũng có thể tốt hơn vì những lý do khác. Cụ thể, nếu các giả định là đúng (và điều này không quá phổ biến) thì nó cung cấp một giải pháp (trung bình) chính xác hơn.

Khả năng tối đa

Hồi quy bình phương nhỏ nhất và hồi quy lượng tử (khi được thực hiện bằng cách giảm thiểu số dư tuyệt đối) có thể được xem là tối đa hóa hàm khả năng cho các lỗi phân tán Gaussian / Laplace và theo nghĩa này có liên quan rất nhiều.

  • Phân phối Gaussian:

    f(x)=12πσ2e(xμ)22σ2

    với khả năng đăng nhập được tối đa hóa khi tối thiểu hóa tổng số dư bình phương

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • Phân phối Laplace:

    f(x)=12be|xμ|b

    với khả năng đăng nhập được tối đa hóa khi tối thiểu hóa tổng số dư tuyệt đối

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

Lưu ý: phân phối Laplace và tổng số dư tuyệt đối liên quan đến trung vị, nhưng nó có thể được khái quát hóa cho các lượng tử khác bằng cách cho các trọng số khác nhau đối với phần dư âm và dương.

Phân phối lỗi đã biết

Khi chúng ta biết phân phối lỗi (khi các giả định có khả năng đúng), sẽ hợp lý khi chọn hàm khả năng liên quan. Giảm thiểu chức năng đó là tối ưu hơn.

Rất thường các lỗi được (khoảng) phân phối bình thường. Trong trường hợp đó sử dụng ít nhất là hình vuông là cách tốt nhất để tìm các tham số μ (mà liên quan đến cả hai giá trị trung bình và trung bình). Đó là cách tốt nhất vì nó có phương sai mẫu thấp nhất (thấp nhất trong tất cả các công cụ ước tính không thiên vị ). Hoặc bạn có thể nói mạnh mẽ hơn: rằng nó chiếm ưu thế một cách ngẫu nhiên (xem hình minh họa trong câu hỏi này so sánh sự phân bố của trung vị mẫu và giá trị trung bình của mẫu).

Vì vậy, khi các lỗi được phân phối bình thường, thì giá trị trung bình mẫu là một ước lượng tốt hơn của trung vị phân phối so với trung bình mẫu . Hồi quy bình phương nhỏ nhất là một ước lượng tối ưu hơn của các lượng tử. Nó là tốt hơn so với việc sử dụng tổng số dư tuyệt đối.

Bởi vì rất nhiều vấn đề đối phó với các lỗi phân tán thông thường, việc sử dụng phương pháp bình phương nhỏ nhất là rất phổ biến. Để làm việc với các loại phân phối khác, người ta có thể sử dụng mô hình tuyến tính Tổng quát . Và, phương pháp bình phương tối thiểu lặp lại, có thể được sử dụng để giải GLM, cũng hoạt động cho phân phối Laplace (nghĩa là cho độ lệch tuyệt đối ), tương đương với việc tìm trung bình (hoặc trong phiên bản tổng quát khác các lượng tử khác).

Phân phối lỗi không xác định

Mạnh mẽ

Trung bình hoặc các lượng tử khác có lợi thế là chúng rất mạnh về loại phân phối. Các giá trị thực tế không quan trọng lắm và các lượng tử chỉ quan tâm đến thứ tự. Vì vậy, bất kể phân phối là gì, tối thiểu hóa số dư tuyệt đối (tương đương với việc tìm các lượng tử) đang hoạt động rất tốt.

Câu hỏi trở nên phức tạp và rộng rãi ở đây và nó phụ thuộc vào loại kiến ​​thức chúng ta có hoặc không có về chức năng phân phối. Ví dụ, một phân phối có thể được phân phối xấp xỉ bình thường nhưng chỉ với một số ngoại lệ bổ sung. Điều này có thể được xử lý bằng cách loại bỏ các giá trị bên ngoài. Việc loại bỏ các giá trị cực đoan này thậm chí còn có tác dụng trong việc ước tính tham số vị trí của phân phối Cauchy trong đó giá trị trung bình bị cắt có thể là một công cụ ước tính tốt hơn so với trung vị. Vì vậy, không chỉ cho tình huống lý tưởng khi các giả định nắm giữ, mà còn cho một số ứng dụng ít lý tưởng hơn (ví dụ: các ngoại lệ bổ sung) có thể có các phương pháp mạnh mẽ vẫn sử dụng một số dạng của phần dư bình phương thay vì tổng dư tuyệt đối.

Tôi tưởng tượng rằng hồi quy với phần dư bị cắt có thể phức tạp hơn nhiều về mặt tính toán. Vì vậy, nó thực sự có thể là hồi quy lượng tử, là loại hồi quy được thực hiện vì lý do là nó đơn giản hơn về mặt tính toán (không đơn giản hơn bình phương tối thiểu thông thường, nhưng đơn giản hơn bình phương tối thiểu bị cắt cụt ).

Xu hướng / không thiên vị

Một vấn đề khác là thiên vị so với ước tính không thiên vị. Trong phần trên tôi đã mô tả ước tính khả năng tối đa cho giá trị trung bình, tức là giải pháp bình phương nhỏ nhất, như một công cụ ước tính tốt hoặc tốt hơn bởi vì nó thường có phương sai thấp nhất trong tất cả các ước lượng không thiên vị (khi các lỗi được phân phối bình thường). Nhưng, các ước tính sai lệch có thể tốt hơn (tổng bình phương lỗi dự kiến ​​thấp hơn).

Điều này làm cho câu hỏi một lần nữa rộng và phức tạp. Có nhiều người ước tính khác nhau và nhiều tình huống khác nhau để áp dụng chúng. Việc sử dụng một tổng số thích ứng của hàm mất dư bình phương thường hoạt động tốt để giảm lỗi (ví dụ: tất cả các loại phương pháp chính quy), nhưng nó có thể không cần hoạt động tốt trong mọi trường hợp. Theo trực giác, không có gì lạ khi tưởng tượng rằng, vì tổng hàm mất phần dư bình phương thường hoạt động tốt cho tất cả các công cụ ước lượng không thiên vị, nên các công cụ ước tính thiên vị tối ưu có lẽ là một cái gì đó gần với tổng hàm mất phần dư bình phương.


Khi chúng ta biết phân phối lỗi, sẽ hợp lý khi chọn hàm khả năng liên quan. Giảm thiểu chức năng đó là tối ưu hơn. Không nói điều này là sai, nhưng có lẽ nên có trình độ. Tất nhiên, điều này một lần nữa liên quan đến câu hỏi của tôi (mà bạn đã trả lời) về các công cụ ước tính tối ưu theo các hàm mất khác nhau.
Richard Hardy

Đó là cách tốt nhất vì nó có phương sai mẫu thấp nhất. Phương sai nói chung không phải là một hàm mất mát hợp lý vì nó bỏ qua sự thiên vị; một đối tác hợp lý sẽ được dự kiến ​​là lỗi bình phương (hay còn gọi là lỗi bình phương) có tính đến cả phương sai và sai lệch. Hồi quy bình phương nhỏ nhất là một ước lượng tối ưu hơn của các lượng tử. Trung bình - có, nhưng những người khác? Và nếu có, thì tại sao? Trong mọi trường hợp, bạn là một câu trả lời rất hay!
Richard Hardy

1
@RichardHardy chủ đề này rất rộng. Quả thực là lỗi = phương sai + sai lệch. Tôi giả sử độ lệch của giá trị trung bình mẫu giống như trung bình mẫu (hoặc tổng quát hơn: tổng nhỏ nhất của phần dư bình phương và tổng nhỏ nhất của phần dư tuyệt đối có cùng độ lệch). Điều này đúng với các phân phối lỗi khác nhau (ví dụ: phân phối lỗi đối xứng), nhưng thực sự các câu hỏi trở nên phức tạp hơn đối với các trường hợp khác. (điểm chủ yếu là các lỗi thường được phân phối bình thường và điều này làm cho hồi quy bình phương tối thiểu thuận lợi)
Sextus Empiricus

1
Điều tương tự (độ phức tạp của câu hỏi) là đúng khi chúng ta không xem xét trung vị, mà thay vào đó là một số lượng tử khác. Trong trường hợp lỗi phân phối bình thường, tôi tin rằng MLE cho kết quả tốt nhất cho bất kỳ định lượng nào, nhưng tôi đồng ý rằng đó là trực giác. Một lần nữa, vấn đề rất rộng (phụ thuộc vào số lượng mẫu, loại phân phối lỗi và sự chắc chắn về nó, v.v.).
Sextus Empiricus

1
một chiếc đồng hồ bị hỏng là chính xác hai lần một ngày, tôi sẽ không gọi MLE là đồng hồ bị hỏng. Chắc chắn, khi bạn biết rõ vấn đề, sau đó bạn có thể đưa ra một số sai lệch giảm sai lệch để cải thiện lỗi tổng thể. Điều này không nhất thiết phải chuyển sang một loại hồi quy (định lượng) khác, bạn cũng có thể chỉ cần cho một ít mứt hoặc mật ong vào bánh mì và bơ vuông nhỏ nhất. Nếu bạn muốn so sánh MLE với một chiếc đồng hồ bị hỏng thì đó là một chiếc đồng hồ tình cờ đứng yên trong khoảng thời gian mà chúng ta sử dụng nhiều nhất.
Sextus Empiricus

2

Hồi quy tuyến tính (LR) đạt tối ưu hóa bình phương tối thiểu khi tính toán các hệ số của nó. Điều này hàm ý sự đối xứng trong các độ lệch so với mô hình hồi quy. Một lời giải thích tốt về hồi quy lượng tử (QR) có trong https: //data.l Library.virginia.edu/getting-started-with-quantile-regression/ .

Nếu các giả định LR (cần thiết cho suy luận: giá trị p, khoảng tin cậy, v.v.) là các dự đoán QR và LR thỏa mãn sẽ tương tự nhau. Nhưng nếu các giả định bị vi phạm mạnh mẽ, suy luận LR tiêu chuẩn của bạn sẽ sai. Vì vậy, hồi quy 0,5 lượng tử (trung vị) thể hiện một lợi thế so với LR. Nó cũng cho phép linh hoạt hơn trong việc cung cấp hồi quy cho các lượng tử khác. Tương đương với các mô hình tuyến tính sẽ là giới hạn độ tin cậy được tính toán từ một LR (mặc dù điều này sẽ sai nếu iid bị vi phạm mạnh).

Vậy lợi thế của LR là gì? Tất nhiên là dễ dàng hơn để tính toán nhưng nếu tập dữ liệu của bạn có kích thước hợp lý có thể không đáng chú ý lắm. Nhưng quan trọng hơn, các giả định suy luận của LR cung cấp thông tin làm giảm sự không chắc chắn. Do đó, khoảng tin cậy của LR đối với các dự đoán thường sẽ hẹp hơn. Vì vậy, nếu có sự hỗ trợ lý thuyết mạnh mẽ cho các giả định, khoảng tin cậy hẹp hơn có thể là một lợi thế.


2

E(Y|X)YXlà dữ liệu. Hồi quy cho chúng ta biết rằngE(Y|X)= =Xβ. Có một số giả định nhất định (bạn có thể tìm thấy chúng trong bất kỳ văn bản thống kê nào) để suy luận là hợp lệ. Nếu những điều này được thỏa mãn thì nhìn chung công cụ ước tính tiêu chuẩn choβ là BLUE (công cụ ước lượng không thiên vị tuyến tính tốt nhất - xem định lý Gauss-Markov).

Hồi quy lượng tử có thể được sử dụng để ước tính BẤT K quant lượng tử nào của phân bố có điều kiện bao gồm trung vị. Điều này cung cấp tiềm năng nhiều thông tin hơn mức trung bình về phân phối có điều kiện. Nếu phân phối có điều kiện không đối xứng hoặc đuôi có thể dày (ví dụ phân tích rủi ro), hồi quy lượng tử là hữu ích NGAY CẢ nếu tất cả các giả định của hồi quy tuyến tính đều được thỏa mãn.

Tất nhiên, chuyên sâu hơn về mặt số lượng để thực hiện ước lượng định lượng liên quan đến hồi quy tuyến tính nhưng nhìn chung mạnh mẽ hơn nhiều (ví dụ như trung vị mạnh hơn so với trung bình so với trung bình). Ngoài ra, nó phù hợp khi hồi quy tuyến tính không - ví dụ: đối với dữ liệu bị kiểm duyệt. Suy luận có thể phức tạp hơn vì ước tính trực tiếp của ma trận phương sai hiệp phương sai có thể khó khăn hoặc tốn kém về mặt tính toán. Trong những trường hợp đó, người ta có thể bootstrap.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.