Xác nhận chéo với hồi quy làm mịn không định lượng


8

Khi tôi sử dụng mô hình hồi quy, tôi cảm thấy không ổn định khi mặc định một giả định về liên kết tuyến tính; thay vào đó, tôi thích khám phá dạng chức năng của mối quan hệ giữa các biến phụ thuộc và biến giải thích bằng cách sử dụng hồi quy làm mịn không theo tỷ lệ (ví dụ: mô hình phụ gia tổng quát , lowess / lowess , làm mịn dòng chạy , v.v.) trước khi ước lượng mô hình tham số sử dụng, như hồi quy bình phương nhỏ nhất để ước tính các tham số cho các hàm được đề xuất bởi mô hình không tham số.

Một cách tốt để suy nghĩ về việc thực hiện xác nhận chéo trong giai đoạn hồi quy làm mịn không theo tỷ lệ của cách tiếp cận như vậy là gì? Tôi tự hỏi liệu tôi có thể gặp phải tình huống trong mẫu giữ ngẫu nhiên Một mối quan hệ xấp xỉ bởi chức năng bản lề tuyến tính "thanh gãy" có thể rõ ràng hay không, trong khi mẫu B giữ lại cho thấy mối quan hệ sẽ được xấp xỉ tốt hơn bởi chức năng bản lề ngưỡng parabol.

Liệu người ta có cách tiếp cận không toàn diện sẽ giữ lại một phần dữ liệu được chọn ngẫu nhiên, thực hiện hồi quy không theo tỷ lệ, giải thích các dạng chức năng hợp lý cho kết quả và lặp lại số lần này (có thể quản lý được) và các dạng chức năng có thể kiểm chứng về mặt tinh thần ?

Hoặc người ta sẽ thực hiện một cách tiếp cận toàn diện (ví dụ LOOCV), và sử dụng một số thuật toán để 'làm mịn tất cả các độ mịn' và sử dụng độ mịn nhất của độ mịn để thông báo các dạng chức năng hợp lý? (Mặc dù, theo phản ánh, tôi nghĩ LOOCV hoàn toàn không có khả năng dẫn đến các mối quan hệ chức năng rất khác nhau vì một dạng chức năng trên một mẫu đủ lớn không có khả năng bị thay đổi bởi một điểm dữ liệu duy nhất.)

Các ứng dụng của tôi thường sẽ đòi hỏi số lượng các biến dự đoán có thể quản lý được của con người (một vài đến vài chục), nhưng kích thước mẫu của tôi sẽ dao động từ vài trăm đến vài trăm nghìn. Mục đích của tôi là tạo ra một mô hình giao tiếp trực quan và dễ dịch có thể được sử dụng để đưa ra dự đoán của những người có tập dữ liệu khác với tôi và không bao gồm các biến kết quả.

Tài liệu tham khảo trong câu trả lời rất hoan nghênh.


Nó sẽ giúp làm rõ câu hỏi của bạn: bạn muốn đạt được điều gì với xác nhận chéo? Xác định mô hình làm mịn nào hoạt động tốt nhất?
jubo

Cảm ơn bạn. Tôi quan tâm đến việc tạo ra các mô hình dự báo tham số được xác thực chéo. Tuy nhiên, tôi không thoải mái với giả định về mối quan hệ chức năng tuyến tính giữa các biến phụ thuộc và biến độc lập. Do đó, phương pháp phi tuyến tính -> tham số phi tuyến tôi đã mô tả ở trên. Tôi quan tâm đến việc nhận CV ở bước đầu tiên để xác thực (các) biểu mẫu chức năng được đề xuất (ví dụ: các mẫu phụ được tổ chức khác nhau có gợi ý chức năng khác nhau không?).
Alexis

Câu trả lời:


-1

Dường như với tôi có hai nhầm lẫn trong câu hỏi của bạn:

  • Đầu tiên, hồi quy tuyến tính (nhỏ nhất bình phương) không yêu cầu mối quan hệ tuyến tính trong các biến độc lập , nhưng trong các tham số .

    Do đó có thể được ước tính bằng bình phương tối thiểu thông thường ( là hàm tuyến tính của các tham số , , ), trong khi không thể ( không tuyến tính trong tham số ). ymộtbcy=một+bx+b2zyby=a+bxex+cz1+x2yabcy=a+bx+b2zyb

  • Thứ hai, làm thế nào để bạn xác định một mô hình chức năng "chính xác" từ mượt mà hơn, tức là làm thế nào để bạn đi từ bước 1 đến bước 2?

    Theo như tôi biết, không có cách nào để suy ra "chức năng của các biến hồi quy sử dụng" từ các kỹ thuật làm mịn như spline, lưới thần kinh, v.v. Nghe có vẻ rất mạnh mẽ đối với tôi, và có vẻ như người ta không cần phải làm mịn cho việc này, chỉ là những sự phân tán.

Nếu mục tiêu cuối cùng của bạn là mô hình hồi quy tuyến tính và vấn đề của bạn là bạn không biết chính xác nên sử dụng hình thức hồi quy chức năng nào, thì tốt hơn hết bạn nên điều chỉnh trực tiếp mô hình hồi quy tuyến tính chính quy (như LASSO ) với mở rộng cơ sở lớn của các biến hồi quy ban đầu (như đa thức của biến hồi quy, hàm mũ, nhật ký, ...). Quy trình chính quy sẽ loại bỏ các biến hồi quy không cần thiết, để lại cho bạn một mô hình tham số (hy vọng là tốt). Và bạn có thể sử dụng xác thực chéo để xác định tham số hình phạt tối ưu (xác định mức độ tự do thực tế của mô hình).

Bạn luôn có thể sử dụng hồi quy không theo tỷ lệ làm chuẩn cho lỗi tổng quát hóa, như một cách để kiểm tra xem mô hình tuyến tính chính quy của bạn dự đoán dữ liệu bên ngoài cũng như mượt mà hơn.


1
Điểm 1 của bạn: Tôi giao tiếp kém. Tôi quan tâm đến các tham số hóa phi tuyến như bạn chỉ ra (ví dụ: hàm bản lề: , trong đó cũng là một tham số để được ước tính). Động lực cho câu hỏi này là bởi vì tôi tự hỏi: sẽ giữ lại mẫu phụ A gợi ý, giả sử, chức năng bản lề "thanh gãy", trong khi mẫu phụ B giữ lại gợi ý chức năng bản lề ngưỡng parabol? Tôi không tìm kiếm các mối quan hệ chức năng "chính xác" (có thể là phi tuyến trong các tham số hóa), nhưng các mối quan hệ "dự đoán". CV có vai trò gì ở đây không? βxx+βhmax(xθ,0)θ
Alexis

Điểm thứ 2 của bạn: Bạn đúng khi nói rằng việc chuyển từ bước 1 sang 2 đòi hỏi trực giác. Tuy nhiên, một lợi ích của việc sử dụng cách tiếp cận "không mạnh mẽ" như vậy (trái ngược với cách tiếp cận khớp đường cong thuật toán), là (theo kinh nghiệm của tôi), người ta có thể truyền đạt mối quan hệ giữa kết quả và yếu tố dự đoán bằng một tham số hợp lý trực quan (ví dụ: các hàm đa thức phân đoạn không gọi một hình dạng / hình thức cụ thể đến tâm trí), với các lỗi gần hợp lý với phương pháp thuật toán. Vì vậy: tốt hơn so với các giả định tham số tuyến tính, nhưng vẫn giữ được tính dễ hiểu cho khán giả.
Alexis

Tôi không rõ ràng rằng LASSO sẽ phục vụ nhu cầu của tôi: Tôi không ở trong tình huống . p>n
Alexis

1
Tôi mong bạn xem xét lại nhận xét Lasso của bạn. Mặc dù Lasso được thiết kế với ý tưởng , nhưng tính hữu dụng của nó không bị giới hạn trong tình huống đó, đặc biệt là khi tìm kiếm một mô hình (nhỏ) có khả năng dự đoán cao. jubo đã đề nghị mở rộng số lượng hiệp phương sai bằng cách thêm một khai triển cơ sở lớn, spline hoặc đa thức trực giao, sau đó cho phép Lasso chọn những cái có liên quan. p>n
Matthew Drury

Mặc dù vậy, tôi không chắc cách tiếp cận Lasso đối với splines thực sự lý tưởng, bởi vì chúng có xu hướng có sự hỗ trợ hẹp (đối với hình khối tôi tin rằng chúng được hỗ trợ giữa bốn nút thắt liên tiếp). Một số sự kết hợp của hình phạt L1 và L2 với glmnet có thể hoạt động.
Matthew Drury
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.