Vấn đề gì làm phương pháp co ngót giải quyết?


61

Mùa lễ đã cho tôi cơ hội cuộn tròn bên đống lửa với The Elements of Statistics Learning . Xuất phát từ quan điểm kinh tế lượng (thường xuyên), tôi gặp khó khăn trong việc sử dụng các phương pháp thu nhỏ như hồi quy sườn, lasso và hồi quy góc nhỏ nhất (LAR). Thông thường, tôi quan tâm đến ước tính tham số bản thân và đạt được tính không thiên vị hoặc ít nhất là tính nhất quán. Phương pháp thu nhỏ không làm điều đó.

Dường như với tôi, các phương pháp này được sử dụng khi nhà thống kê lo lắng rằng hàm hồi quy trở nên quá nhạy với các yếu tố dự đoán, nó coi các yếu tố dự đoán là quan trọng hơn (được đo bằng độ lớn của các hệ số) so với thực tế. Nói cách khác, quá mức.

Tuy nhiên, OLS thường cung cấp các ước tính không thiên vị và nhất quán. (Chú thích) Tôi luôn xem vấn đề quá mức không đưa ra các ước tính quá lớn, mà là các khoảng tin cậy quá nhỏ vì quá trình lựa chọn không được tính đến ( ESL đề cập đến điểm sau này).

Ước tính hệ số không thiên vị / nhất quán dẫn đến dự đoán không thiên vị / nhất quán về kết quả. Các phương pháp thu nhỏ đẩy các dự đoán gần với kết quả trung bình hơn OLS, dường như để lại thông tin trên bàn.

Để nhắc lại, tôi không thấy vấn đề gì mà các phương pháp thu nhỏ đang cố gắng giải quyết. Tui bỏ lỡ điều gì vậy?

Lưu ý: Chúng tôi cần điều kiện xếp hạng cột đầy đủ để xác định các hệ số. Giả định trung bình / không có điều kiện trung bình cho các lỗi và giả định kỳ vọng có điều kiện tuyến tính xác định cách giải thích mà chúng ta có thể đưa ra cho các hệ số, nhưng chúng ta có được ước tính không thiên vị hoặc nhất quán về một điều gì đó ngay cả khi những giả định này không đúng.


1
Có một số câu hỏi liên quan ở đây. Đây là một: stats.stackexchange.com/questions/10478/ từ
hồng y

2
Lưu ý rằng có các điều kiện đơn giản và khá yếu về việc lựa chọn tham số co rút để đạt được sự thống nhất của tham số. Điều này được trình bày chi tiết trong bài báo và vỏ bọc nổi tiếng của Knight & Fu (2000) vượt xa hồi quy sườn và lasso. Tính nhất quán trong lựa chọn mô hình cũng đã trở thành một chủ đề phổ biến trong vài năm qua.
Đức Hồng Y

@cardinal, cảm ơn các con trỏ để mô hình kết quả nhất quán cho lasso; Tôi sẽ có một cái nhìn. Tất nhiên, những kết quả này cũng có thể được tìm thấy cho OLS. Các kết quả ngụ ý rằng cả hai thủ tục đến cùng một nơi. Vì vậy, tôi vẫn không hiểu tại sao chúng ta lại sử dụng Lasso trên OLS.
Charlie

1
Tính nhất quán của mô hình là một khái niệm khác với tính nhất quán tiệm cận của các ước tính tham số. Bạn có biết (quen thuộc) sự khác biệt này?
Đức hồng y

@cardinal, Theo tính nhất quán của mô hình, tôi cho rằng bạn có nghĩa là các yếu tố dự đoán chính xác được bao gồm. Chúng ta có thể có được điều này bằng cách sử dụng tiêu chí AIC trong quá trình lựa chọn bằng OLS. Tôi đoán rằng bạn đang ám chỉ rằng, trong giới hạn, Lasso chọn đúng mô hình với hệ số "sai"?
Charlie

Câu trả lời:


47

Tôi nghi ngờ bạn muốn có một câu trả lời sâu sắc hơn, và tôi sẽ phải để người khác cung cấp điều đó, nhưng tôi có thể cho bạn một vài suy nghĩ về hồi quy sườn núi từ góc độ khái niệm lỏng lẻo.

Hồi quy OLS mang lại các ước tính tham số không thiên vị (nghĩa là, nếu các mẫu đó được thu thập và các tham số được ước tính vô thời hạn, phân phối lấy mẫu của các ước tính tham số sẽ được tập trung vào giá trị thực). Ngoài ra, phân phối lấy mẫu sẽ có phương sai thấp nhất trong tất cả các ước tính không thiên vị có thể có (điều này có nghĩa là, trung bình, ước tính tham số OLS sẽ gần với giá trị thực hơn so với ước tính từ một số thủ tục ước lượng không thiên vị khác). Đây là tin cũ (và tôi xin lỗi, tôi biết bạn biết rõ điều này), tuy nhiên, thực tế là phương sai thấp hơn không có nghĩa là nó quá thấp. Trong một số trường hợp, phương sai của phân phối lấy mẫu có thể lớn đến mức làm cho công cụ ước tính OLS về cơ bản không có giá trị. (Một tình huống có thể xảy ra là khi có mức độ đa hình cao.)

Người ta phải làm gì trong tình huống như vậy? Vâng, một công cụ ước tính khác nhau có thể được tìm thấy có phương sai thấp hơn (mặc dù, rõ ràng, nó phải được thiên vị, dựa trên những gì đã được quy định ở trên). Đó là, chúng tôi đang giao dịch không thiên vị cho phương sai thấp hơn. Ví dụ: chúng tôi nhận được các ước tính tham số có khả năng gần với giá trị thực hơn, mặc dù có thể thấp hơn một chút so với giá trị thực. Liệu sự đánh đổi này có đáng hay không là một phán đoán mà nhà phân tích phải đưa ra khi đối mặt với tình huống này. Ở bất kỳ giá nào, hồi quy sườn núi chỉ là một kỹ thuật như vậy. Hình dưới đây (hoàn toàn bịa đặt) nhằm mục đích minh họa những ý tưởng này.

nhập mô tả hình ảnh ở đây

Điều này cung cấp một giới thiệu ngắn gọn, đơn giản, khái niệm về hồi quy sườn núi. Tôi biết ít hơn về Lasso và LAR, nhưng tôi tin rằng những ý tưởng tương tự có thể được áp dụng. Thông tin thêm về Lasso và hồi quy góc nhỏ nhất có thể được tìm thấy ở đây , liên kết "giải thích đơn giản ..." đặc biệt hữu ích. Điều này cung cấp nhiều thông tin hơn về các phương pháp co ngót.

Tôi hy vọng điều này có giá trị.


12
Điều này cho một số gợi ý khái niệm tốt đẹp. Trong đoạn thứ hai có rất nhiều sự tập trung vào sự không thiên vị, nhưng thiếu một cảnh báo quan trọng. Trừ khi (a) mô hình tuyến tính là "chính xác" (và, khi nào?) Và (b) tất cả các dự đoán có liên quan đều được đưa vào mô hình, nói chung, các ước tính hệ số sẽ vẫn bị sai lệch.
Đức hồng y

5
Sự hiểu biết hạn chế của tôi về sự đánh đổi sai lệch / sai lệch là ai đó đang tìm kiếm một lời giải thích (có lẽ là áp phích gốc) sẽ thích không thiên vị, ngay cả khi phương sai lớn hơn, nhưng ai đó đưa ra dự báo có thể thích một cái gì đó có phương sai nhỏ, ngay cả khi sai lệch được giới thiệu.
Wayne

2
@Wayne: Thật vậy, đây là (một trong) mấu chốt của vấn đề. Phần lớn quan điểm trong ESL là đến từ góc độ dự đoán và do đó, màu sắc này chiếm phần lớn trong phân tích của họ. Thực hiện suy luận trên một hệ số duy nhất, đặc biệt là trong một thiết lập quan sát, là một vấn đề rất trơn. Sẽ có một số thuyết phục nghiêm trọng để tuyên bố rằng các ước tính hệ số thực sự là "không thiên vị".
Đức hồng y

1
Sau một thời gian, tôi có thể cố gắng mở rộng những bình luận đã quá đồ sộ của mình một chút sau đó.
Đức hồng y

@gung, đây là một chủ đề Meta có liên quan mà bạn có thể quan tâm.
Richard Hardy

16

Lỗi của công cụ ước tính là sự kết hợp của các thành phần sai lệch và bình phương (bình phương) . Tuy nhiên, trong thực tế, chúng tôi muốn điều chỉnh mô hình cho một mẫu dữ liệu hữu hạn cụ thể và chúng tôi muốn giảm thiểu tổng sai số của công cụ ước tính được đánh giá trên mẫu dữ liệu cụ thể mà chúng tôi thực sự có , thay vì trung bình không có lỗi đối với một số mẫu (mà chúng ta không có). Do đó, chúng tôi muốn giảm cả sai lệch và sai lệch, để giảm thiểu lỗi, điều này thường có nghĩa là hy sinh tính không thiên vị để làm giảm nhiều hơn trong thành phần phương sai. Điều này đặc biệt đúng khi xử lý các bộ dữ liệu nhỏ, trong đó phương sai có khả năng cao.

Tôi nghĩ rằng sự khác biệt trong trọng tâm phụ thuộc vào việc người ta có quan tâm đến các tính chất của một quy trình hay không, hoặc có được kết quả tốt nhất trên một mẫu cụ thể. Những người thường xuyên tìm thấy trước đây dễ dàng hơn để giải quyết trong khuôn khổ đó; Bayes thường tập trung nhiều hơn vào sau này.


9

Tôi đoán rằng có một vài câu trả lời có thể áp dụng:

  • Hồi quy độ dốc có thể cung cấp nhận dạng khi ma trận của các yếu tố dự đoán không xếp hạng cột đầy đủ.
  • Lasso và LAR có thể được sử dụng khi số lượng người dự đoán lớn hơn số lượng quan sát (một biến thể khác của vấn đề không đơn lẻ).
  • Lasso và LAR là các thuật toán lựa chọn biến tự động.

Tôi không chắc chắn rằng điểm đầu tiên liên quan đến hồi quy sườn núi thực sự là một tính năng; Tôi nghĩ rằng tôi muốn thay đổi mô hình của mình để đối phó với việc không nhận dạng. Ngay cả khi không có thay đổi mô hình, OLS cung cấp các dự đoán duy nhất (và không thiên vị / nhất quán) về kết quả trong trường hợp này.

Tôi có thể thấy điểm thứ hai có thể hữu ích như thế nào, nhưng lựa chọn chuyển tiếp cũng có thể hoạt động trong trường hợp số lượng tham số vượt quá số lượng quan sát trong khi mang lại ước tính không thiên vị / nhất quán.

Về điểm cuối cùng, lựa chọn tiến / lùi, làm ví dụ, dễ dàng được tự động hóa.

Vì vậy, tôi vẫn không thấy những lợi thế thực sự.


6
Một số lưu ý: ( 1 ) Các ước tính OLS không phải là duy nhất khi ma trận của các yếu tố dự đoán không đầy đủ thứ hạng. ( 2 ) Tính nhất quán là một khái niệm tiệm cận và do đó đòi hỏi một chuỗi các công cụ ước tính. Điều này có nghĩa là bạn cần xác định loại trình tự mà bạn đang xem xét và loại tăng trưởng mà bạn quan tâm vấn đề. ( 3 ) Có nhiều loại thống nhất và hiểu được sự khác biệt giữa chúng có thể mang tính minh họa. Bài báo Zhao & Yu (2006) có một cuộc thảo luận tốt đẹp. ( 4 ) Không thiên vị được đánh giá cao.
Đức hồng y

1
( 5 ) Động lực ban đầu của hồi quy sườn núi trong Hoerl & Kennard (1970) là xử lý các ma trận thiết kế không có điều kiện, đây là một dạng thiếu hụt "mềm".
hồng y

1
@ thẻ, tái. (1): Xin lỗi, tôi có nghĩa là dự đoán về kết quả, chứ không phải là ước tính của các hệ số.
Charlie

1
À, được rồi Đó là hình vuông tốt hơn với chú thích của bạn trong câu hỏi.
Đức hồng y

Đây là đường dẫn đến phiên bản công khai của Zhao & Yu (2006) như trong phần bình luận ở trên.
Richard Hardy

4

Đây là một ví dụ áp dụng cơ bản từ Biostatistic

Giả sử rằng tôi đang nghiên cứu các mối quan hệ có thể có giữa sự hiện diện của ung thư buồng trứng và một bộ gen.

Biến phụ thuộc của tôi là nhị phân (được mã hóa bằng 0 hoặc 1) Biến độc lập của tôi mã hóa dữ liệu từ cơ sở dữ liệu proteomic.

Như thường thấy trong nhiều nghiên cứu di truyền, dữ liệu của tôi rộng hơn nhiều so với chiều cao. Tôi có 216 quan sát khác nhau nhưng 4000 dự đoán có thể.

Hồi quy tuyến tính là đúng (hệ thống là khủng khiếp hơn xác định).

kỹ thuật lựa chọn thực sự không khả thi. Với hơn 4.000 biến độc lập khác nhau, tất cả các kỹ thuật tập hợp con có thể hoàn toàn nằm ngoài câu hỏi và thậm chí lựa chọn tính năng tuần tự là không rõ ràng.

Tùy chọn tốt nhất có lẽ là sử dụng hồi quy logistic với lưới đàn hồi.

Tôi muốn thực hiện lựa chọn tính năng (xác định biến độc lập nào là quan trọng) để hồi quy sườn thực sự không phù hợp.

Hoàn toàn có thể có hơn 216 biến độc lập có ảnh hưởng đáng kể, vì vậy tôi có lẽ không nên sử dụng Lasso (Lasso không thể xác định nhiều dự đoán hơn bạn quan sát) ...

Nhập lưới đàn hồi ...


1
bạn có thể cung cấp sách giáo khoa xử lý các tình huống như bạn đề cập không?
Qbik

0

Một vấn đề khác mà các phương pháp hồi quy tuyến tính có thể giải quyết là có được ước tính phương sai thấp (có thể không thiên vị) về hiệu quả điều trị trung bình (ATE) trong các nghiên cứu kiểm soát trường hợp chiều cao trên dữ liệu quan sát.

Cụ thể, trong trường hợp 1) có một số lượng lớn các biến số (gây khó khăn cho việc lựa chọn các biến để khớp chính xác), 2) kết hợp điểm số không phù hợp để loại bỏ sự mất cân bằng trong các mẫu điều trị và kiểm soát, và có 3) hiện tượng đa hình là một số kỹ thuật, chẳng hạn như Lasso thích nghi (Zou, 2006) có được ước tính không thiên vị không có triệu chứng. Đã có một số bài viết thảo luận về việc sử dụng hồi quy lasso cho suy luận nguyên nhân và tạo khoảng tin cậy cho các ước tính hệ số (xem bài sau: Suy luận sau khi sử dụng Lasso để chọn biến ).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.