Câu trả lời này chủ yếu sẽ tập trung vào , nhưng hầu hết logic này mở rộng sang các số liệu khác như AUC, v.v.R2
Câu hỏi này gần như chắc chắn không thể được trả lời tốt cho bạn bởi các độc giả tại CrossValidated. Không có cách nào không có ngữ cảnh để quyết định liệu các số liệu mô hình như có tốt hay khôngR2 . Ở các thái cực, thường có thể nhận được sự đồng thuận từ nhiều chuyên gia khác nhau: trên gần 1 thường chỉ ra một mô hình tốt và gần bằng 0 cho thấy một mô hình khủng khiếp. Ở giữa là một phạm vi mà các đánh giá vốn đã chủ quan. Trong phạm vi này, không chỉ cần chuyên môn thống kê để trả lời liệu số liệu mô hình của bạn có tốt không. Nó đòi hỏi chuyên môn bổ sung trong lĩnh vực của bạn, điều mà độc giả CrossValidated có thể không có.R2
Tại sao lại thế này? Hãy để tôi minh họa bằng một ví dụ từ kinh nghiệm của riêng tôi (chi tiết nhỏ đã thay đổi).
Tôi đã từng làm thí nghiệm vi sinh. Tôi sẽ thiết lập các bình của các tế bào ở các mức độ tập trung dinh dưỡng khác nhau và đo lường sự tăng trưởng về mật độ tế bào (nghĩa là độ dốc của mật độ tế bào theo thời gian, mặc dù chi tiết này không quan trọng). Sau đó, khi tôi mô hình hóa mối quan hệ tăng trưởng / dinh dưỡng này, thông thường đạt được giá trị là> 0,90.R2
Tôi bây giờ là một nhà khoa học môi trường. Tôi làm việc với các bộ dữ liệu chứa các phép đo từ thiên nhiên. Nếu tôi cố gắng khớp chính xác mô hình tương tự được mô tả ở trên với các bộ dữ liệu 'trường' này, tôi sẽ ngạc nhiên nếu cao tới 0,4.R2
Hai trường hợp này liên quan đến chính xác các tham số giống nhau, với các phương pháp đo rất giống nhau, các mô hình được viết và lắp bằng các quy trình giống nhau - và thậm chí cùng một người thực hiện khớp! Nhưng trong một trường hợp, của 0,7 sẽ thấp đáng lo ngại, và trong trường hợp khác, nó sẽ cao đáng ngờ.R2
Hơn nữa, chúng tôi sẽ thực hiện một số phép đo hóa học cùng với các phép đo sinh học. Các mô hình cho các đường cong tiêu chuẩn hóa học sẽ có khoảng 0,99 và giá trị 0,90 sẽ thấp đáng lo ngại .R2
Điều gì dẫn đến những khác biệt lớn trong kỳ vọng? Bối cảnh. Thuật ngữ mơ hồ đó bao trùm một khu vực rộng lớn, vì vậy hãy để tôi thử tách nó thành một số yếu tố cụ thể hơn (điều này có thể không đầy đủ):
1. Phần thưởng / hậu quả / ứng dụng là gì?
Đây là nơi mà bản chất của lĩnh vực của bạn có khả năng là quan trọng nhất. Tuy nhiên, có giá trị, tôi nghĩ rằng công việc của tôi là, tăng mô hình s của tôi lên 0,1 hoặc 0,2 sẽ không cách mạng hóa thế giới. Nhưng có những ứng dụng mà mức độ thay đổi lớn như vậy sẽ là một vấn đề rất lớn! Một cải tiến nhỏ hơn nhiều trong mô hình dự báo chứng khoán có thể có nghĩa là hàng chục triệu đô la cho công ty phát triển nó.R2
Điều này thậm chí còn dễ dàng hơn để minh họa cho các trình phân loại, vì vậy tôi sẽ chuyển cuộc thảo luận về số liệu từ sang độ chính xác cho ví dụ sau (bỏ qua điểm yếu của số liệu chính xác trong thời điểm này). Hãy xem xét thế giới kỳ lạ và sinh lợi của sex gà . Sau nhiều năm huấn luyện, một con người có thể nhanh chóng nhận ra sự khác biệt giữa gà đực và gà cái khi chúng chỉ mới 1 ngày tuổi. Con đực và con cái được cho ăn khác nhau để tối ưu hóa sản xuất thịt và trứng, vì vậy độ chính xác cao giúp tiết kiệm một khoản lớn trong đầu tư sai lầm hàng tỷR2của các loài chim. Đến vài thập kỷ trước, độ chính xác khoảng 85% được coi là cao ở Mỹ. Ngày nay, giá trị của việc đạt được độ chính xác cao nhất, khoảng 99%? Một mức lương rõ ràng có thể dao động từ 60.000 đến 180.000 đô la mỗi năm (dựa trên một số googling nhanh chóng). Vì con người vẫn bị giới hạn về tốc độ làm việc, các thuật toán học máy có thể đạt được độ chính xác tương tự nhưng cho phép sắp xếp diễn ra nhanh hơn có thể đáng giá hàng triệu.
(Tôi hy vọng bạn thích ví dụ này - giải pháp thay thế là một điều đáng buồn về nhận dạng thuật toán rất đáng nghi ngờ của những kẻ khủng bố).
2. Mức độ ảnh hưởng của các yếu tố không được điều chỉnh trong hệ thống của bạn mạnh đến mức nào?
Trong nhiều thử nghiệm, bạn có thể tách biệt hệ thống khỏi tất cả các yếu tố khác có thể ảnh hưởng đến nó (rốt cuộc đó là một phần mục tiêu của thử nghiệm). Thiên nhiên thì bừa bộn hơn. Để tiếp tục với ví dụ vi sinh học trước đó: các tế bào phát triển khi có chất dinh dưỡng nhưng những thứ khác cũng ảnh hưởng đến chúng - nó nóng đến mức nào, có bao nhiêu động vật ăn thịt để ăn chúng, cho dù có độc tố trong nước. Tất cả những điều đó với các chất dinh dưỡng và với nhau theo những cách phức tạp. Mỗi yếu tố khác thúc đẩy sự thay đổi trong dữ liệu mà mô hình của bạn không nắm bắt được. Các chất dinh dưỡng có thể không quan trọng trong việc thay đổi lái xe so với các yếu tố khác, và vì vậy nếu tôi loại trừ các yếu tố khác đó, mô hình dữ liệu thực địa của tôi sẽ nhất thiết phải có thấp hơn .R2
3. Làm thế nào chính xác và chính xác là số đo của bạn?
R2
4. Mô hình phức tạp và tính khái quát
R2R2
R2R2
IMO, quá mức là đáng ngạc nhiên phổ biến trong nhiều lĩnh vực. Cách tốt nhất để tránh điều này là một chủ đề phức tạp và tôi khuyên bạn nên đọc về quy trình chính quy và lựa chọn mô hình trên trang web này nếu bạn quan tâm đến vấn đề này.
5. Phạm vi dữ liệu và ngoại suy
R2
Ngoài ra, nếu bạn điều chỉnh mô hình cho tập dữ liệu và cần dự đoán giá trị ngoài phạm vi X của tập dữ liệu đó (tức là ngoại suy ), bạn có thể thấy rằng hiệu suất của nó thấp hơn bạn mong đợi. Điều này là do mối quan hệ bạn đã ước tính có thể thay đổi ngoài phạm vi dữ liệu bạn đã trang bị. Trong hình bên dưới, nếu bạn chỉ thực hiện các phép đo trong phạm vi được chỉ định bởi hộp màu xanh lá cây, bạn có thể tưởng tượng rằng một đường thẳng (màu đỏ) đã mô tả tốt dữ liệu. Nhưng nếu bạn cố gắng dự đoán một giá trị nằm ngoài phạm vi đó với đường màu đỏ đó, bạn sẽ khá sai.
[Hình này là phiên bản chỉnh sửa của cái này , được tìm thấy thông qua một tìm kiếm nhanh trên google cho 'Đường cong Monod'.]
6. Số liệu chỉ cung cấp cho bạn một phần của hình ảnh
Đây không thực sự là một sự chỉ trích về các số liệu - chúng là tóm tắt , có nghĩa là chúng cũng vứt bỏ thông tin theo thiết kế. Nhưng nó có nghĩa là bất kỳ số liệu đơn lẻ nào bỏ qua thông tin có thể rất quan trọng đối với việc giải thích của nó. Một phân tích tốt sẽ được xem xét nhiều hơn một số liệu đơn lẻ.
Đề xuất, sửa chữa và phản hồi khác chào mừng. Và các câu trả lời khác, tất nhiên.