Hồi quy tuyến tính: Làm thế nào để ưu tiên các tham số ít nhạy cảm hơn


9

Tôi có một mô hình hồi quy đơn giản ( y = param1 * x1 + param2 * x2 ). Khi tôi khớp mô hình với dữ liệu của mình, tôi tìm thấy hai giải pháp tốt:

  • Giải pháp A, params = (2,7), là tốt nhất trên tập huấn luyện với RMSE = 2,5

  • NHƯNG! Giải pháp B params = (24,20) thắng lớn trên bộ xác thực , khi tôi thực hiện xác thực chéo.

nhập mô tả hình ảnh ở đây Tôi nghi ngờ điều này là do:

  • giải pháp A bị bao vây bởi các giải pháp xấu. Vì vậy, khi tôi sử dụng giải pháp A, mô hình nhạy cảm hơn với các biến thể dữ liệu.

  • giải pháp B được bao quanh bởi các giải pháp OK, do đó, nó ít nhạy cảm hơn với những thay đổi trong dữ liệu.

Đây có phải là một lý thuyết hoàn toàn mới mà tôi vừa phát minh ra, rằng các giải pháp với những người hàng xóm tốt sẽ ít bị thừa? :))

Có phương pháp tối ưu hóa chung nào có thể giúp tôi ủng hộ giải pháp B, cho giải pháp A không?

CỨU GIÚP!


2
Hình ảnh của bạn đang bị lỗi tập? Bạn có thể tạo cùng một hình ảnh cho lỗi xác thực chéo? Thumbs up cho một cốt truyện mát mẻ.
Zach

1
Bạn cũng có thể chia sẻ dữ liệu? Đây là một vấn đề thú vị.
Zach

1
bạn đã sử dụng loại CV nào?
Laksan Nathan

1
Có một đánh chặn trong mô hình của bạn?
EdM

1
Hoàn toàn là một vấn đề thống kê, nếu tôi có một tập dữ liệu đủ lớn được phân phối theo mô hình tuyến tính và tôi nhìn vào các tập hợp nhỏ của tập dữ liệu, sẽ có một tập hợp con với bất kỳ giá trị nào của độ dốc mà tôi có thể mong muốn. Vì vậy, bạn sẽ cần phải kiểm tra chống lại giả thuyết null rằng điều này chỉ đơn giản là phát sinh tình cờ. Nếu bạn có thêm một số lý do để nghĩ rằng bộ xác nhận là đáng tin cậy hơn tập huấn luyện, bạn có thể sử dụng hồi quy bình phương nhỏ nhất có trọng số để điều chỉnh mức độ quan trọng của bộ xác thực so với tập huấn luyện.
Dave Kielpinski

Câu trả lời:


2

Cách duy nhất để có được một rmse có hai cực tiểu cục bộ là phần dư của mô hình và dữ liệu là phi tuyến. Vì một trong số này, mô hình, là tuyến tính (ở dạng 2D), còn lại, tức là dữ liệu , phải là phi tuyến đối với xu hướng cơ bản của dữ liệu hoặc hàm nhiễu của dữ liệu đó hoặc cả hai.y

Do đó, một mô hình tốt hơn, một mô hình phi tuyến, sẽ là điểm khởi đầu để điều tra dữ liệu. Hơn nữa, không biết gì thêm về dữ liệu, người ta không thể nói phương pháp hồi quy nào nên được sử dụng với bất kỳ sự chắc chắn nào. Tôi có thể đề nghị rằng chính quy Tikhonov, hoặc hồi quy sườn liên quan, sẽ là một cách tốt để giải quyết câu hỏi OP. Tuy nhiên, yếu tố làm mịn nào nên được sử dụng sẽ phụ thuộc vào những gì người ta đang cố gắng đạt được bằng cách lập mô hình. Giả định ở đây dường như là rmse ít nhất tạo ra mô hình tốt nhất vì chúng ta không có mục tiêu hồi quy (khác với OLS là phương thức mặc định "đi đến" thường được sử dụng khi mục tiêu hồi quy được xác định vật lý thậm chí không được khái niệm hóa) .

Vì vậy, mục đích của việc thực hiện hồi quy này là gì? Không xác định mục đích đó, không có mục tiêu hồi quy hoặc mục tiêu và chúng tôi chỉ tìm ra hồi quy cho mục đích thẩm mỹ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.