Nhầm lẫn liên quan đến lưới đàn hồi


10

Tôi đã đọc bài viết này liên quan đến lưới đàn hồi. Họ nói rằng họ sử dụng lưới đàn hồi bởi vì nếu chúng ta chỉ sử dụng Lasso, nó có xu hướng chỉ chọn một yếu tố dự đoán trong số các yếu tố dự đoán có tương quan cao. Nhưng đây không phải là những gì chúng ta muốn. Tôi có nghĩa là nó cứu chúng ta khỏi những rắc rối của đa cộng đồng không.

Bất kỳ đề nghị / làm rõ?

Câu trả lời:


11

Giả sử hai yếu tố dự đoán có tác động mạnh đến phản hồi nhưng có mối tương quan cao trong mẫu mà bạn xây dựng mô hình của mình. Nếu bạn thả một từ mô hình, nó sẽ không dự đoán tốt cho các mẫu từ các quần thể tương tự trong đó các yếu tố dự đoán không tương quan cao.

Nếu bạn muốn cải thiện độ chính xác của các ước tính hệ số của bạn với sự hiện diện của đa cộng đồng, bạn phải đưa ra một chút sai lệch, tắt cài đặt nó bằng cách giảm phương sai lớn hơn. Một cách là bằng cách loại bỏ hoàn toàn các yếu tố dự đoán bằng LASSO, hoặc, trong những ngày xưa, các phương pháp từng bước, là phương pháp ước tính hệ số của chúng bằng không. Một cách khác là bằng cách thiên vị tất cả các ước tính một chút bit với hồi quy sườn, hoặc, trong những ngày xưa, hồi quy trên một vài thành phần chính đầu tiên. Một nhược điểm trước đây là rất không an toàn nếu mô hình sẽ được sử dụng để dự đoán các phản ứng cho các mẫu dự đoán cách xa các mẫu xảy ra trong mẫu ban đầu, vì các dự đoán có xu hướng bị loại trừ chỉ vì chúng không được sử dụng cùng với nhau, gần collinear, dự đoán. (Không phải phép ngoại suy là hoàn toàn an toàn.) Lưới đàn hồi là hỗn hợp của cả hai, như @ user12436 giải thích, và có xu hướng giữ các nhóm dự đoán tương quan trong mô hình.


Tại sao nó không dự đoán tốt trong mẫu mới này?
dùng31820

1
Bởi vì mô hình thiếu một yếu tố dự đoán quan trọng.
Scortchi - Phục hồi Monica

2
Nếu hai yếu tố dự đoán tương quan trong một mẫu đại diện từ một quần thể, thì chúng có nên không tương quan trong một mẫu khác không? nếu bạn sử dụng một mô hình trên dữ liệu "cách xa các mô hình xảy ra trong mẫu ban đầu", đó có phải là việc sử dụng không hợp lệ đường biên của bất kỳ mô hình nào không?
Matthew Drury

@MatthewDrury: Vâng, nếu "đúng" của mô hình - nếu không có các yếu tố gây nhiễu không đáng quan tâm, và nếu dạng chức năng có thể ngoại suy - thì việc phân phối các yếu tố dự đoán trong mẫu không thành vấn đề (mặc dù tất nhiên nó quyết định độ chính xác của ước tính & dự đoán). Vì vậy, ở một thái cực, bạn có thể có một mô hình cơ học được xây dựng trên dữ liệu từ một nghiên cứu thực nghiệm được kiểm soát tốt về các yếu tố nguyên nhân; mặt khác, một mô hình thực nghiệm được xây dựng trên dữ liệu được thu thập từ một nghiên cứu quan sát về một loạt các biến chỉ đơn giản là dễ đo lường.
Scortchi - Phục hồi Monica

Cụm từ: " ngày xưa, các phương pháp từng bước làm tôi mỉm cười .: D (Rõ ràng +1, đây là một câu trả lời hay)
usεr11852

4

Nhưng đây không phải là những gì chúng ta muốn. Ý tôi là nó cứu chúng ta khỏi những rắc rối của đa cộng đồng phải không.

Đúng! và không. Lưới đàn hồi là sự kết hợp của hai kỹ thuật chính quy hóa, chính quy L2 (được sử dụng trong hồi quy sườn) và chính quy L1 (được sử dụng trong LASSO).

Lasso tạo ra các mô hình thưa thớt tự nhiên, tức là hầu hết các hệ số biến đổi sẽ được thu nhỏ về 0 và loại trừ khỏi mô hình một cách hiệu quả. Vì vậy, các biến ít quan trọng nhất được thu nhỏ lại, trước khi thu nhỏ các biến khác, không giống như sườn núi, nơi tất cả các biến được thu nhỏ, trong khi không có biến nào thực sự bị thu hẹp về 0.

Lưới đàn hồi sử dụng kết hợp tuyến tính của cả hai phương pháp này. Trường hợp cụ thể được đề cập bởi Hastie khi thảo luận về phương pháp này là trong trường hợp p lớn, n nhỏ. Có nghĩa là: dữ liệu chiều cao với, tương đối ít quan sát. Trong trường hợp này, LASSO sẽ (chỉ báo cáo) chỉ chọn tối đa n biến, trong khi loại bỏ tất cả các biến còn lại, xem bài báo của Hastie .

Nó sẽ luôn phụ thuộc vào tập dữ liệu thực tế, nhưng bạn cũng có thể tưởng tượng rằng bạn không luôn muốn có giới hạn trên về số lượng biến trong các mô hình của mình bằng hoặc thấp hơn số lượng quan sát của bạn.


Nhưng những gì về đa cộng đồng. Lưới đàn hồi có cho phép chọn nhiều tính năng cộng tuyến không tốt không?
dùng31820

Tôi không nghĩ rằng nhiều bộ dữ liệu thực có các biến đa hướng hoàn hảo. Các biến tương quan cao có thể gần như cộng tuyến, đây vẫn là một vấn đề, nhưng một biến mà bạn có thể sẵn sàng chấp nhận, trong trường hợp cả hai đều quan trọng đối với mô hình của bạn.
có nghĩa là

Liên kết được thêm ở trên dẫn đến yahoo.com. Ngoài ra, [tờ giấy] ( onlinel Library.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/ - ) là của Zou và Hastie (Mạng đàn hồi một).
KarthikS

2

Cả Lasso và Elastic Net đều là các phương pháp hiệu quả để thực hiện lựa chọn biến hoặc tính năng trong cài đặt dữ liệu chiều cao (nhiều biến hơn so với bệnh nhân hoặc mẫu; ví dụ: 20.000 gen và 500 mẫu khối u).

Nó đã được chỉ ra (bởi Hastie và những người khác) rằng Elastic Net có thể vượt trội hơn Lasso khi dữ liệu có tương quan cao. Lasso có thể chỉ chọn một trong các biến tương quan và không quan tâm đến biến nào được chọn. Đây có thể là một vấn đề khi một người muốn xác nhận các biến được chọn trong một bộ dữ liệu độc lập. Biến được chọn bởi Lasso có thể không phải là yếu tố dự đoán tốt nhất trong số tất cả các biến tương quan. Mạng đàn hồi giải quyết vấn đề này bằng cách lấy trung bình các biến có tương quan cao.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.