Mô hình ổn định khi xử lý vấn đề lớn , nhỏ

Giới thiệu:

Tôi có một bộ dữ liệu với một "vấn đề p lớn, nhỏ n" cổ điển. Số lượng mẫu có sẵn n = 150 trong khi số lượng dự đoán có thể p = 400. Kết quả là một biến liên tục.

Tôi muốn tìm những mô tả "quan trọng" nhất, tức là những mô tả tốt nhất để giải thích kết quả và giúp xây dựng một lý thuyết.

Sau khi nghiên cứu về chủ đề này, tôi thấy LASSO và Elastic Net thường được sử dụng cho trường hợp p lớn, n nhỏ. Một số dự đoán của tôi có mối tương quan cao và tôi muốn duy trì các nhóm của chúng trong đánh giá tầm quan trọng, do đó, tôi đã chọn cho Mạng đàn hồi . Tôi cho rằng tôi có thể sử dụng các giá trị tuyệt đối của các hệ số hồi quy làm thước đo tầm quan trọng (vui lòng sửa lại cho tôi nếu tôi sai; tập dữ liệu của tôi được chuẩn hóa).

Vấn đề:

Vì số lượng mẫu của tôi ít, làm thế nào tôi có thể đạt được một mô hình ổn định?

Cách tiếp cận hiện tại của tôi là tìm các tham số điều chỉnh tốt nhất (lambda và alpha) trong tìm kiếm dạng lưới trên 90% bộ dữ liệu với điểm xác nhận chéo trung bình 10 lần, điểm trung bình của MSE. Sau đó, tôi đào tạo mô hình với các tham số điều chỉnh tốt nhất trên toàn bộ 90% dữ liệu. Tôi có thể đánh giá mô hình của mình bằng R bình phương trên 10% của tập dữ liệu (chỉ chiếm 15 mẫu).

Chạy lặp lại quy trình này, tôi thấy một phương sai lớn trong các đánh giá bình phương R. Đồng thời, số lượng các yếu tố dự đoán khác không cũng như hệ số của chúng.

Làm cách nào tôi có thể có được đánh giá ổn định hơn về tầm quan trọng của người dự đoán và đánh giá ổn định hơn về hiệu suất mô hình cuối cùng?

Tôi có thể liên tục chạy quy trình của mình để tạo một số mô hình và sau đó hệ số hồi quy trung bình không? Hoặc tôi nên sử dụng số lần xuất hiện của một yếu tố dự đoán trong các mô hình làm điểm quan trọng của nó?

Hiện tại, tôi nhận được khoảng 40-50 người dự đoán khác không. Tôi có nên xử phạt số lượng người dự đoán khó hơn để ổn định hơn không?

— dimi
nguồn

Có lẽ hồi quy chính quy là không đủ? Bạn đã thử một số phương pháp học máy?

Những cách tiếp cận ML phù hợp với biến phụ thuộc liên tục hoặc thứ tự bạn sẽ đề xuất?

— dimi

Rừng ngẫu nhiên, SVR ... Để chọn tính năng, bạn có thể thử một số phương pháp phù hợp (nên ổn định hơn) như ACE hoặc Boruta.

Câu trả lời:

" Các thuật toán thưa thớt không ổn định: Định lý không ăn trưa miễn phí "

Tôi đoán tiêu đề nói rất nhiều, như bạn đã chỉ ra.

[...] Một thuật toán thưa thớt có thể có các giải pháp tối ưu không độc đáo, và do đó không được đặt ra

Kiểm tra Lasso ngẫu nhiên , và bài nói chuyện của Peter Buhlmann .

Cập nhật:

Tôi thấy bài báo này dễ theo dõi hơn bài báo của Meinshausen và Buhlmann gọi là "Lựa chọn ổn định".

Trong " Random Lasso ", các tác giả xem xét hai nhược điểm quan trọng của Lasso cho lớn , nhỏ vấn đề, có nghĩa là, $p$ $n$

Trong trường hợp tồn tại một số biến tương quan, lasso chỉ chọn một hoặc một vài biến, do đó dẫn đến sự không ổn định mà bạn nói về
Lasso không thể chọn nhiều biến hơn kích thước mẫu , đây là vấn đề của nhiều mô hình $n$

Ý tưởng chính cho Lasso ngẫu nhiên, có thể đối phó với cả nhược điểm của Lasso là như sau

Nếu một số bộ dữ liệu độc lập được tạo từ cùng một phân phối, thì chúng tôi hy vọng Lasso sẽ chọn các tập hợp con không xác định của các biến quan trọng tương quan cao đó từ các bộ dữ liệu khác nhau và bộ sưu tập cuối cùng của chúng tôi có thể là hầu hết, hoặc thậm chí là tất cả, trong số đó có quan hệ tương quan cao các biến bằng cách lấy một tập hợp các biến được chọn từ các tập dữ liệu khác nhau. Một quá trình như vậy có thể mang lại nhiều hơn biến, vượt qua giới hạn khác của Lasso. $n$

Các mẫu Bootstrap được vẽ để mô phỏng nhiều bộ dữ liệu. Các hệ số cuối cùng thu được bằng cách lấy trung bình trên các kết quả của từng mẫu bootstrap.

Sẽ thật tuyệt nếu ai đó có thể giải thích và giải thích thêm về thuật toán này trong các câu trả lời.

— Pardis
nguồn

Liên kết đẹp (+1).

— jbowman

Cảm ơn bạn đã nhận xét. Tôi cũng đã xem xét Lasso ngẫu nhiên, nhưng nó có phù hợp trong trường hợp cộng tác không?

— dimi

Điều gì xảy ra dưới sự cộng tuyến gần đúng giữa các biến giải thích? Trong thuật toán tìm kiếm chuyển tiếp thông thường trong phân tích hồi quy, chúng ta thường phải đối mặt với tình huống hai biến x1 và x2 có sức mạnh giải thích tương tự nhau. Nếu x1 nằm trong mô hình, thì không cần bao gồm x2; ngược lại, nếu x2 nằm trong mô hình thì không cần bao gồm x1. Nếu tôi hiểu chính xác quy trình của bạn, bạn sẽ có xu hướng bao gồm x1 một nửa thời gian và x2 một nửa thời gian, dẫn đến xác suất ổn định khoảng 50% mỗi lần. Nếu vậy, bạn có thể kết luận sai rằng không cần biến.

— dimi

Tôi tưởng tượng, tôi có thể sử dụng tương tự lưới đàn hồi ngẫu nhiên trong trường hợp này.

— dimi

Tôi đã thêm một liên kết khác mà tôi nghĩ rằng câu trả lời của bạn tốt hơn.

— Pardis

Cách tiếp cận hiện tại của tôi là tìm các tham số điều chỉnh tốt nhất (lambda và alpha) trong tìm kiếm dạng lưới trên 90% bộ dữ liệu với điểm xác nhận chéo trung bình 10 lần, điểm trung bình của MSE. Sau đó, tôi đào tạo mô hình với các tham số điều chỉnh tốt nhất trên toàn bộ 90% dữ liệu. Tôi có thể đánh giá mô hình của mình bằng R bình phương trên 10% của tập dữ liệu (chỉ chiếm 15 mẫu).

Làm thế nào ổn định là các tham số điều chỉnh?

Bạn có thấy sự khác biệt lớn giữa mức độ phù hợp (ví dụ: MSE của xác thực chéo của tham số tối ưu) và hiệu suất thử nghiệm độc lập 10% không?

Đó sẽ là một triệu chứng của quá mức:

Vấn đề với tìm kiếm lưới (và nhiều chiến lược tối ưu hóa tham số khác) là về cơ bản bạn giả định một hành vi khá trơn tru của . Nhưng đối với các thử nghiệm nhỏ, phương sai do kích thước của thử nghiệm nhỏ (= 135 tổng số mẫu trong 10 lần cv) có thể lớn hơn chênh lệch thực tế của . Trong trường hợp đó, các tham số khá không ổn định. $MSE = f (grid parameters)$ $MSE = f (grid parameters)$

Tôi có thể liên tục chạy quy trình của mình để tạo một số mô hình và sau đó hệ số hồi quy trung bình không? Hoặc tôi nên sử dụng số lần xuất hiện của một yếu tố dự đoán trong các mô hình làm điểm quan trọng của nó?

Có một số khả năng để xây dựng các mô hình tổng hợp như vậy:

mô hình tuyến tính có thể được tính trung bình bằng cách lấy trung bình các hệ số
tổng quát hơn, bạn có thể dự đoán một mẫu theo từng mô hình khác nhau và tính trung bình các dự đoán (bạn cũng có thể rút ra ý tưởng về sự không chắc chắn khi xem xét phân phối dự đoán). $m$ $m$

Các thuật ngữ tìm kiếm sẽ là "mô hình tổng hợp", "tổng hợp bootstrap", "đóng gói".

Suy nghĩ bên lề: một số loại dữ liệu có sự cộng tác có thể giải thích và có thể giải thích được có thể khiến selectio biến đổi "nhảy" giữa các giải pháp ít nhiều bằng nhau.

— cbeleites hỗ trợ Monica
nguồn

Không có cách nào thoát khỏi nó. Như một số người nói, các mô hình không ổn định về bản chất (nếu không sẽ không cần thống kê).

Nhưng sự bất ổn tự nó mang lại thông tin. Vì vậy, thay vì cố gắng thoát khỏi nó, tôi đã cố gắng phân tích nó.

Tôi chạy các mô phỏng xác thực chéo nhiều lần và sau đó lấy các hệ số cho các tham số được chọn tốt nhất trong mỗi lần chạy và đặt chúng lại với nhau.

Trong trường hợp của lưới đàn hồi tôi chạy một thử nghiệm kiểm chứng chéo cho mỗi alpha (0..1 0.1) với cùng một dữ liệu k gấp (bạn nên so sánh bản alpha trên tập dữ liệu giống nhau) và chọn / cặp liên quan đến lỗi kiểm tra ít hơn ... Hơn tôi lặp lại nó trong n lần với dữ liệu k được chọn ngẫu nhiên khác nhau và chọn cặp tốt nhất cho mỗi lần lặp. $\lambda$ $\alpha$

Sau đó, tôi trích xuất các hệ số hồi quy cho từng cặp tham số và điều này mang lại cho tôi phân phối giá trị cho từng tham số. Bằng cách này, tôi có thể sử dụng giá trị trung bình / trung bình để mô tả cường độ của yếu tố dự đoán và độ lệch chuẩn / IQR của nó để mô tả tính biến thiên của nó, đó là tính ổn định của nó.

Một công cụ dự đoán rất ổn định có nghĩa là bạn có thể mong đợi hiệu ứng của nó cũng tương tự với dữ liệu mới; một công cụ dự đoán không ổn định ngay cả trong dữ liệu của bạn, có thể sẽ rất không ổn định ngay cả với dữ liệu mới.

— Bakaburg
nguồn