Làm thế nào để giải thích kết quả khi cả hai sườn núi và lasso hoạt động tốt nhưng tạo ra các hệ số khác nhau


11

Tôi đang chạy mô hình hồi quy cả với Lasso và Ridge (để dự đoán một biến kết quả rời rạc từ 0-5). Trước khi chạy mô hình, tôi sử dụng SelectKBestphương pháp scikit-learnđể giảm bộ tính năng từ 250 xuống 25 . Nếu không có lựa chọn tính năng ban đầu, cả Lasso và Ridge đều cho điểm chính xác thấp hơn [có thể là do kích thước mẫu nhỏ, 600]. Ngoài ra, lưu ý rằng một số tính năng có tương quan.

Sau khi chạy mô hình, tôi quan sát thấy độ chính xác dự đoán gần như giống với Lasso và Ridge. Tuy nhiên, khi tôi kiểm tra 10 tính năng đầu tiên sau khi đặt hàng chúng theo giá trị tuyệt đối của các hệ số, tôi thấy rằng có nhiều nhất là 50% trùng lặp.

Đó là, do tầm quan trọng khác nhau của các tính năng được chỉ định bởi mỗi phương thức, tôi có thể có một cách hiểu hoàn toàn khác nhau dựa trên mô hình mà tôi chọn.

Thông thường, các tính năng đại diện cho một số khía cạnh của hành vi người dùng trong một trang web. Do đó, tôi muốn giải thích những phát hiện bằng cách làm nổi bật các tính năng (hành vi của người dùng) với khả năng dự đoán mạnh hơn so với các tính năng yếu hơn (hành vi của người dùng). Tuy nhiên, tôi không biết làm thế nào để tiến về phía trước vào thời điểm này. Làm thế nào tôi nên tiếp cận để giải thích mô hình? Ví dụ, nên kết hợp cả hai và làm nổi bật cái chồng chéo, hay tôi nên đi với Lasso vì nó cung cấp nhiều tính dễ hiểu hơn?


3
(+1) Chính quy hóa có thể được coi là làm cho các ước tính hệ số riêng lẻ trở nên tồi tệ hơn trong khi cải thiện hiệu suất tập thể của chúng trong việc dự đoán các phản ứng mới. Chính xác những gì bạn đang cố gắng để đạt được với sự giải thích của bạn?
Scortchi - Tái lập Monica

1
@Scortchi cảm ơn đã phản hồi. Tôi đã thêm cái nàyNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre

3
+1 AFAIK mối quan hệ giữa các hệ số sườn núi và lambda không phải là đơn điệu, trong khi ở Lasso thì nó là. Do đó, ở các mức co rút nhất định, giá trị tuyệt đối của các hệ số trong sườn núi và lasso có thể thay đổi rất nhiều. Có nói rằng, tôi sẽ đánh giá cao nếu ai đó có thể phác thảo một bằng chứng về điều này hoặc giải thích ngắn gọn về mặt toán học
ukasz Grad

Hãy chắc chắn rằng bạn đang sắp xếp các hệ số "beta". Xem thống kê.stackexchange.com/a/243439/70282 Bạn có thể nhận được chúng bằng cách đào tạo về các biến được tiêu chuẩn hóa hoặc bằng cách điều chỉnh sau này như được mô tả trong liên kết.
Chris

1
λ

Câu trả lời:


7

Hồi quy sườn khuyến khích tất cả các hệ số trở nên nhỏ. Lasso khuyến khích nhiều / hầu hết các hệ số [**] trở thành số không, và một số khác không. Cả hai sẽ giảm độ chính xác trên tập huấn luyện, nhưng cải thiện dự đoán theo một cách nào đó:

  • hồi quy sườn núi cố gắng cải thiện tổng quát hóa cho bộ thử nghiệm, bằng cách giảm overfit
  • Lasso sẽ giảm số lượng các hệ số khác không, ngay cả khi điều này phạt hiệu suất trên cả tập huấn luyện và kiểm tra

Bạn có thể nhận được các lựa chọn hệ số khác nhau nếu dữ liệu của bạn có tương quan cao. Vì vậy, bạn có thể có 5 tính năng tương quan:

  • bằng cách gán các hệ số nhỏ nhưng khác không cho tất cả các tính năng này, hồi quy sườn có thể đạt được tổn thất thấp trên tập huấn luyện, có thể khái quát hóa một cách hợp lý cho tập kiểm thử
  • Lasso có thể chỉ chọn một trong số này, tương quan tốt với bốn người kia. và không có lý do tại sao nó nên chọn tính năng có hệ số cao nhất trong phiên bản hồi quy sườn

[*] đối với định nghĩa 'chọn': gán hệ số khác không, vẫn hơi vẫy tay, vì các hệ số hồi quy sườn sẽ có xu hướng khác không, nhưng ví dụ một số có thể giống như 1e-8 và những người khác có thể là ví dụ 0,01

λ


Gợi ý tốt. Một kiểm tra tốt là để làm một ma trận tương quan. Các biến không chồng chéo có thể có mối tương quan cao.
Chris

3
Câu trả lời tốt! Tuy nhiên, tôi không chắc chắn có công bằng không khi đề xuất rằng mọi người đều cố gắng để thực hiện thử nghiệm trong khi không nói điều tương tự đối với Lasso. Chẳng hạn, nếu mô hình thực sự thưa thớt (và trong tập hợp con của các yếu tố dự đoán của chúng ta), chúng ta có thể ngay lập tức mong đợi Lasso có hiệu suất thử nghiệm tốt hơn so với sườn núi
user795305

Đây là nguyên tắc 'đặt cược vào sự thưa thớt'. Ví dụ, xem cốt truyện đầu tiên ở đây: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305

2
So sánh các lựa chọn biến (LASSO) và hệ số hồi quy giữa nhiều mẫu bootstrap của dữ liệu có thể minh họa độc đáo các vấn đề này. Với các yếu tố dự đoán tương quan, những yếu tố được LASSO chọn từ các bootstraps khác nhau có thể khá khác nhau trong khi vẫn cung cấp hiệu suất dự đoán tương tự. Lý tưởng nhất là toàn bộ quy trình xây dựng mô hình bao gồm giảm bộ tính năng ban đầu nên được lặp lại trên nhiều bootstraps để ghi lại chất lượng của quy trình.
EdM 18/03/2017

λ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.