Mô hình hóa với nhiều biến hơn điểm dữ liệu


11

Tôi còn khá mới với Machine Learning / Modelling và tôi muốn có một số nền tảng cho vấn đề này. Tôi có một bộ dữ liệu trong đó số lượng quan sát là tuy nhiên số lượng biến là p 8000 . Đầu tiên, thậm chí có ý nghĩa gì khi xem xét việc xây dựng một mô hình trên một tập dữ liệu như thế này hay người ta nên xem xét một kỹ thuật chọn biến để bắt đầu như hồi quy sườn hoặc Lasso? Tôi đã đọc rằng tình huống này có thể dẫn đến phù hợp quá mức. Đó có phải là trường hợp của tất cả các kỹ thuật ML hay một số kỹ thuật xử lý việc này tốt hơn các kỹ thuật khác? Không có quá nhiều toán học, một lời giải thích đơn giản về lý do tại sao toán học bắt đầu phân tích cho p > n sẽ được đánh giá cao.n<200p8000p>n

Câu trả lời:


14

Chắc chắn có thể phù hợp với các mô hình tốt khi có nhiều biến hơn điểm dữ liệu, nhưng điều này phải được thực hiện cẩn thận.

Khi có nhiều biến hơn điểm dữ liệu, vấn đề có thể không có giải pháp duy nhất trừ khi nó bị hạn chế thêm. Đó là, có thể có nhiều giải pháp (có thể là vô hạn) phù hợp với dữ liệu tốt như nhau. Một vấn đề như vậy được gọi là "không đúng mực" hoặc "không xác định". Ví dụ, khi có nhiều biến hơn điểm dữ liệu, hồi quy bình phương tối thiểu tiêu chuẩn có vô số giải pháp đạt được sai số 0 trên dữ liệu huấn luyện.

Một mô hình như vậy chắc chắn sẽ phù hợp vì nó 'quá linh hoạt' đối với lượng dữ liệu đào tạo. Khi tính linh hoạt của mô hình tăng (ví dụ: nhiều biến hơn trong mô hình hồi quy) và lượng dữ liệu đào tạo bị thu hẹp, ngày càng có nhiều khả năng mô hình sẽ có thể đạt được một lỗi thấp bằng cách điều chỉnh các dao động ngẫu nhiên trong dữ liệu đào tạo không đại diện cho đúng, phân phối cơ bản. Hiệu suất do đó sẽ kém khi mô hình được chạy trên dữ liệu trong tương lai được rút ra từ cùng một phân phối.

12

Các ràng buộc có thể mang lại một giải pháp duy nhất, đó là mong muốn khi chúng ta muốn diễn giải mô hình để tìm hiểu điều gì đó về quá trình tạo ra dữ liệu. Họ cũng có thể mang lại hiệu suất dự đoán tốt hơn bằng cách hạn chế tính linh hoạt của mô hình, do đó làm giảm xu hướng phù hợp.

Tuy nhiên, chỉ đơn giản là áp đặt các ràng buộc hoặc đảm bảo rằng một giải pháp duy nhất tồn tại không có nghĩa là giải pháp kết quả sẽ tốt. Các ràng buộc sẽ chỉ tạo ra các giải pháp tốt khi chúng thực sự phù hợp với vấn đề.

Một vài điểm linh tinh:

  • Sự tồn tại của nhiều giải pháp không nhất thiết là vấn đề. Ví dụ, mạng lưới thần kinh có thể có nhiều giải pháp khả thi khác biệt với nhau nhưng gần tốt như nhau.
  • Sự tồn tại của nhiều biến hơn điểm dữ liệu, sự tồn tại của nhiều giải pháp và quá mức thường trùng khớp. Nhưng, đây là những khái niệm riêng biệt; mỗi cái có thể xảy ra mà không có cái khác

3

33=7313=123423451+22220

(3,0,0)(2,1,0)

Đây là những gì hồi quy bị phạt (như lasso hoặc sườn núi) có nghĩa là: tìm một tập hợp con có thể quản lý của các giải pháp "đơn giản hơn", có khả năng tự nhiên hơn ở một mức độ nào đó. Họ sử dụng định luật phân tích hoặc dao cạo của Ockham , nếu hai mô hình giải thích quan sát có cùng độ chính xác, thì có thể là khôn ngoan nhất khi chọn số lượng nhỏ gọn hơn, ví dụ, số lượng tham số miễn phí. Người ta không thực sự "giải thích" mối quan hệ hữu ích giữa các biến với các mô hình quá liên quan.

Một trích dẫn được gán cho John von Neumann minh họa bối cảnh này:

Với bốn thông số tôi có thể phù hợp với một con voi, và với năm thông số tôi có thể làm cho nó ngọ nguậy thân cây của mình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.