Đánh giá mô hình hồi quy


9

Đối với các vấn đề phân loại, tôi đã sử dụng Mạng nơ-ron và đo lỗi Loại I và II bằng cách sử dụng ma trận nhầm lẫn và các biện pháp theo tài nguyên này ( gương ), khá đơn giản.

Khi gặp vấn đề ước tính, người ta sẽ đánh giá hiệu suất mô hình như thế nào? Giả sử rằng không có lớp và đầu ra được diễn giải ở dạng thực. Ngoài các số liệu khoảng cách trung bình, không cho vay nhiều cái nhìn sâu sắc.


3
Hãy làm rõ "vấn đề ước tính". Mô hình làm gì? Đầu vào là gì và đầu ra là gì?
Trisoloriansunscreen

Vì vậy, đối với một vectơ đầu vào có giá trị thực, được chuẩn hóa, chúng tôi mong đợi một đầu ra có giá trị thực. Vì vậy, ví dụ, đầu ra có thể được ước tính cường độ năng lượng.
Jack H

Câu trả lời:


13

Liên kết mà bạn đã đăng có nhiều kỹ thuật mà tôi muốn đề xuất, nhưng việc thêm các đường cong học tập có thể giúp ích. Điều này có thể giúp bạn thấy không chỉ hiệu suất tuyệt đối, mà còn có thể giúp bạn hiểu được mức độ hiệu quả tối ưu của bạn.

Đường cong học tập: Nếu bạn vẽ lỗi xác thực chéo (cv) và tỷ lệ lỗi tập huấn so với kích thước tập huấn luyện, bạn có thể học được rất nhiều. Nếu hai đường cong tiếp cận nhau với tỷ lệ lỗi thấp, thì bạn đang làm tốt.

Nếu có vẻ như các đường cong đang bắt đầu tiếp cận nhau và cả hai tiêu đề / ở mức thấp, thì bạn cần thêm dữ liệu.

Nếu đường cong cv vẫn cao, nhưng đường cong tập huấn vẫn thấp, thì bạn có tình huống chênh lệch cao. Bạn có thể lấy thêm dữ liệu hoặc sử dụng chính quy để cải thiện việc khái quát hóa.

Nếu cv duy trì ở mức cao và đường cong tập huấn xuất hiện để đáp ứng nó, thì bạn có độ lệch cao. Trong trường hợp này, bạn muốn thêm chi tiết cho mô hình của bạn.


Nhân tiện, đây là một video Coursera giải thích các đường cong học tập cực kỳ tốt.
John Yetter

Hiện tại nó có thể được tìm thấy trên youtube: youtu.be/g4XluwGYPaA
fdelia

3

Có nhiều cách để xác định tiêu chí hiệu suất của mô hình trong ước tính. Hầu hết mọi người sử dụng làm thế nào tốt mô hình phù hợp với dữ liệu. Vì vậy, trong trường hợp hồi quy, nó sẽ là "mô hình giải thích được bao nhiêu phương sai". Tuy nhiên, bạn cần cẩn thận với hồi quy như vậy khi bạn đang thực hiện lựa chọn biến (ví dụ: bằng LASSO), bạn cần kiểm soát số lượng tham số được đưa vào mô hình. Người ta có thể sử dụng phiên bản được xác thực chéo của phương sai được giải thích mà có lẽ cung cấp hiệu suất mô hình ước tính không thiên vị.


3

Đề cập đến tài liệu scikit-learn (gói dựa trên Python cho máy học), r2_score và Expl_variance_score là những lựa chọn phổ biến. Không giống như các thước đo khoảng cách như mean_squared_error hoặc mean_absolute_error, các số liệu này đưa ra một dấu hiệu cho thấy dự đoán tốt hay xấu (gần hơn 1 => dự đoán tốt hơn). [Nhân tiện, nếu sử dụng các thước đo khoảng cách, tôi sẽ khuyên dùng RMSE (lỗi bình phương trung bình gốc) thay vì chỉ MSE (lỗi bình phương trung bình) để có thể so sánh cường độ với các dự đoán]

Ngoài ra, bạn cũng có thể tính hệ số tương quan giữa các giá trị dự đoán hồi quy và giá trị biến mục tiêu thực bằng cách sử dụng hệ số tương quan của Pearson (đối với mô hình tuyến tính) hoặc tốt hơn là sử dụng hệ số tương quan xếp hạng của Spearman (vì điều này không giả định mô hình tuyến tính và ít nhạy cảm hơn với các ngoại lệ ).

Các đường cong học tập được đề xuất trong câu trả lời của John Yetter cũng là một phương pháp tốt nhưng các số liệu được đề cập ở trên có thể dễ dàng hơn để đánh giá hiệu suất.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.