Mô hình của tôi có tốt không, dựa trên giá trị chẩn đoán (

12

Tôi đã trang bị mô hình của mình và đang cố gắng để hiểu liệu nó có tốt không. Tôi đã tính các số liệu được đề xuất để đánh giá nó ( / AUC / độ chính xác / lỗi dự đoán / vv) nhưng không biết cách diễn giải chúng. Nói tóm lại, làm thế nào để tôi biết nếu mô hình của tôi là tốt dựa trên số liệu? Một của 0,6 (ví dụ) có đủ để cho tôi tiến hành rút ra các kết luận hoặc các quyết định khoa học / kinh doanh cơ bản không? $R^2$ $R^2$

Câu hỏi này có chủ ý rộng, để bao quát nhiều tình huống mà các thành viên thường gặp phải; những câu hỏi như vậy có thể được đóng lại như là bản sao của câu hỏi này. Các chỉnh sửa để mở rộng phạm vi vượt ra ngoài các số liệu được đề cập ở đây đều được chào đón, cũng như các câu trả lời bổ sung - đặc biệt là các câu trả lời cung cấp cái nhìn sâu sắc về các loại số liệu khác.

— mkt - Tái lập Monica
nguồn

1

Liên quan: Làm thế nào để biết rằng vấn đề máy học của bạn là vô vọng? Như trong "Tôi có , điều đó có nghĩa là tôi không thể cải thiện nó thêm nữa?"

R^{2} = 0.6

$R^2=0.6$

— Stephan Kolassa

2

Đường cơ sở cho hoặc bất kỳ số liệu được sử dụng nào khác? Chuyển fro đến có thể là một bước nhảy hiệu suất đáng kinh ngạc trong một số ứng dụng nhất định. Điều này chính xác làm thế nào tất cả các công bố xuất bản hợp lý. Chúng tôi có một mô hình được đề xuất, chúng tôi có một loạt các số liệu được chấp nhận tốt, chúng tôi có kiến thức về "công nghệ tiên tiến" và chúng tôi so sánh hiệu suất. Và đó là cách chúng tôi biết nếu mô hình của chúng tôi là tốt .

R^{2}

$R^2$

R^{2} = 0.03

$R^2 = 0.03$

R^{2} = 0.05

$R^2 = 0.05$

— usεr11852

18

Câu trả lời này chủ yếu sẽ tập trung vào , nhưng hầu hết logic này mở rộng sang các số liệu khác như AUC, v.v. $R^2$

Câu hỏi này gần như chắc chắn không thể được trả lời tốt cho bạn bởi các độc giả tại CrossValidated. Không có cách nào không có ngữ cảnh để quyết định liệu các số liệu mô hình như có tốt hay không $R^2$ . Ở các thái cực, thường có thể nhận được sự đồng thuận từ nhiều chuyên gia khác nhau: trên gần 1 thường chỉ ra một mô hình tốt và gần bằng 0 cho thấy một mô hình khủng khiếp. Ở giữa là một phạm vi mà các đánh giá vốn đã chủ quan. Trong phạm vi này, không chỉ cần chuyên môn thống kê để trả lời liệu số liệu mô hình của bạn có tốt không. Nó đòi hỏi chuyên môn bổ sung trong lĩnh vực của bạn, điều mà độc giả CrossValidated có thể không có. $R^2$

Tại sao lại thế này? Hãy để tôi minh họa bằng một ví dụ từ kinh nghiệm của riêng tôi (chi tiết nhỏ đã thay đổi).

Tôi đã từng làm thí nghiệm vi sinh. Tôi sẽ thiết lập các bình của các tế bào ở các mức độ tập trung dinh dưỡng khác nhau và đo lường sự tăng trưởng về mật độ tế bào (nghĩa là độ dốc của mật độ tế bào theo thời gian, mặc dù chi tiết này không quan trọng). Sau đó, khi tôi mô hình hóa mối quan hệ tăng trưởng / dinh dưỡng này, thông thường đạt được giá trị là> 0,90. $R^2$

Tôi bây giờ là một nhà khoa học môi trường. Tôi làm việc với các bộ dữ liệu chứa các phép đo từ thiên nhiên. Nếu tôi cố gắng khớp chính xác mô hình tương tự được mô tả ở trên với các bộ dữ liệu 'trường' này, tôi sẽ ngạc nhiên nếu cao tới 0,4. $R^2$

Hai trường hợp này liên quan đến chính xác các tham số giống nhau, với các phương pháp đo rất giống nhau, các mô hình được viết và lắp bằng các quy trình giống nhau - và thậm chí cùng một người thực hiện khớp! Nhưng trong một trường hợp, của 0,7 sẽ thấp đáng lo ngại, và trong trường hợp khác, nó sẽ cao đáng ngờ. $R^2$

Hơn nữa, chúng tôi sẽ thực hiện một số phép đo hóa học cùng với các phép đo sinh học. Các mô hình cho các đường cong tiêu chuẩn hóa học sẽ có khoảng 0,99 và giá trị 0,90 sẽ thấp đáng lo ngại . $R^2$

Điều gì dẫn đến những khác biệt lớn trong kỳ vọng? Bối cảnh. Thuật ngữ mơ hồ đó bao trùm một khu vực rộng lớn, vì vậy hãy để tôi thử tách nó thành một số yếu tố cụ thể hơn (điều này có thể không đầy đủ):

1. Phần thưởng / hậu quả / ứng dụng là gì?

Đây là nơi mà bản chất của lĩnh vực của bạn có khả năng là quan trọng nhất. Tuy nhiên, có giá trị, tôi nghĩ rằng công việc của tôi là, tăng mô hình s của tôi lên 0,1 hoặc 0,2 sẽ không cách mạng hóa thế giới. Nhưng có những ứng dụng mà mức độ thay đổi lớn như vậy sẽ là một vấn đề rất lớn! Một cải tiến nhỏ hơn nhiều trong mô hình dự báo chứng khoán có thể có nghĩa là hàng chục triệu đô la cho công ty phát triển nó. $R^2$

Điều này thậm chí còn dễ dàng hơn để minh họa cho các trình phân loại, vì vậy tôi sẽ chuyển cuộc thảo luận về số liệu từ sang độ chính xác cho ví dụ sau (bỏ qua điểm yếu của số liệu chính xác trong thời điểm này). Hãy xem xét thế giới kỳ lạ và sinh lợi của sex gà . Sau nhiều năm huấn luyện, một con người có thể nhanh chóng nhận ra sự khác biệt giữa gà đực và gà cái khi chúng chỉ mới 1 ngày tuổi. Con đực và con cái được cho ăn khác nhau để tối ưu hóa sản xuất thịt và trứng, vì vậy độ chính xác cao giúp tiết kiệm một khoản lớn trong đầu tư sai lầm hàng tỷ $R^2$ của các loài chim. Đến vài thập kỷ trước, độ chính xác khoảng 85% được coi là cao ở Mỹ. Ngày nay, giá trị của việc đạt được độ chính xác cao nhất, khoảng 99%? Một mức lương rõ ràng có thể dao động từ 60.000 đến 180.000 đô la mỗi năm (dựa trên một số googling nhanh chóng). Vì con người vẫn bị giới hạn về tốc độ làm việc, các thuật toán học máy có thể đạt được độ chính xác tương tự nhưng cho phép sắp xếp diễn ra nhanh hơn có thể đáng giá hàng triệu.

(Tôi hy vọng bạn thích ví dụ này - giải pháp thay thế là một điều đáng buồn về nhận dạng thuật toán rất đáng nghi ngờ của những kẻ khủng bố).

2. Mức độ ảnh hưởng của các yếu tố không được điều chỉnh trong hệ thống của bạn mạnh đến mức nào?

Trong nhiều thử nghiệm, bạn có thể tách biệt hệ thống khỏi tất cả các yếu tố khác có thể ảnh hưởng đến nó (rốt cuộc đó là một phần mục tiêu của thử nghiệm). Thiên nhiên thì bừa bộn hơn. Để tiếp tục với ví dụ vi sinh học trước đó: các tế bào phát triển khi có chất dinh dưỡng nhưng những thứ khác cũng ảnh hưởng đến chúng - nó nóng đến mức nào, có bao nhiêu động vật ăn thịt để ăn chúng, cho dù có độc tố trong nước. Tất cả những điều đó với các chất dinh dưỡng và với nhau theo những cách phức tạp. Mỗi yếu tố khác thúc đẩy sự thay đổi trong dữ liệu mà mô hình của bạn không nắm bắt được. Các chất dinh dưỡng có thể không quan trọng trong việc thay đổi lái xe so với các yếu tố khác, và vì vậy nếu tôi loại trừ các yếu tố khác đó, mô hình dữ liệu thực địa của tôi sẽ nhất thiết phải có thấp hơn . $R^2$

3. Làm thế nào chính xác và chính xác là số đo của bạn?

$R^2$

4. Mô hình phức tạp và tính khái quát

$R^2$ $R^2$

IMO, quá mức là đáng ngạc nhiên phổ biến trong nhiều lĩnh vực. Cách tốt nhất để tránh điều này là một chủ đề phức tạp và tôi khuyên bạn nên đọc về quy trình chính quy và lựa chọn mô hình trên trang web này nếu bạn quan tâm đến vấn đề này.

5. Phạm vi dữ liệu và ngoại suy

$R^2$

Ngoài ra, nếu bạn điều chỉnh mô hình cho tập dữ liệu và cần dự đoán giá trị ngoài phạm vi X của tập dữ liệu đó (tức là ngoại suy ), bạn có thể thấy rằng hiệu suất của nó thấp hơn bạn mong đợi. Điều này là do mối quan hệ bạn đã ước tính có thể thay đổi ngoài phạm vi dữ liệu bạn đã trang bị. Trong hình bên dưới, nếu bạn chỉ thực hiện các phép đo trong phạm vi được chỉ định bởi hộp màu xanh lá cây, bạn có thể tưởng tượng rằng một đường thẳng (màu đỏ) đã mô tả tốt dữ liệu. Nhưng nếu bạn cố gắng dự đoán một giá trị nằm ngoài phạm vi đó với đường màu đỏ đó, bạn sẽ khá sai.

[Hình này là phiên bản chỉnh sửa của cái này , được tìm thấy thông qua một tìm kiếm nhanh trên google cho 'Đường cong Monod'.]

6. Số liệu chỉ cung cấp cho bạn một phần của hình ảnh

Đây không thực sự là một sự chỉ trích về các số liệu - chúng là tóm tắt , có nghĩa là chúng cũng vứt bỏ thông tin theo thiết kế. Nhưng nó có nghĩa là bất kỳ số liệu đơn lẻ nào bỏ qua thông tin có thể rất quan trọng đối với việc giải thích của nó. Một phân tích tốt sẽ được xem xét nhiều hơn một số liệu đơn lẻ.

Đề xuất, sửa chữa và phản hồi khác chào mừng. Và các câu trả lời khác, tất nhiên.

— mkt - Tái lập Monica
nguồn

3

R^{2}

$R^2$

R^{2}

$R^2$

@Lewian Cảm ơn bạn đã phản hồi. Tôi nghĩ rằng tôi đã bao gồm điểm 2 & 3, nhưng tôi thấy rằng nó có thể được cải thiện. Tôi sẽ suy nghĩ về cách làm cho điểm đó rõ ràng hơn.

— mkt - Tái lập Monica

1

Vâng, tôi nghĩ về việc này đã được bảo hiểm. Điều với 2 và 3 là họ đưa ra lý do cụ thể tại sao điều này có thể xảy ra, tuy nhiên đó là một vấn đề chung.

— Lewian

@Lewian Đồng ý, tôi sẽ suy nghĩ một chút.

— mkt - Phục hồi Monica

2

Vấn đề này xuất hiện trong lĩnh vực thủy văn của tôi khi đánh giá các mô hình dự đoán dòng chảy từ lượng mưa và dữ liệu khí hậu tốt như thế nào. Một số nhà nghiên cứu ( Chiew và McMahon, 1993 ) đã khảo sát 93 nhà thủy văn học, (63 người trả lời) để tìm ra những sơ đồ chẩn đoán và tính tốt của thống kê phù hợp mà họ sử dụng, là quan trọng nhất và cách chúng được sử dụng để phân loại chất lượng của mô hình phù hợp . Các kết quả hiện nay là ngày nhưng cách tiếp cận có thể vẫn được quan tâm. Họ đã trình bày kết quả của sự phù hợp mô hình với các phẩm chất khác nhau và yêu cầu các nhà thủy văn phân loại chúng thành 4 loại (1) kết quả hoàn toàn chấp nhận được; (2) chấp nhận được nhưng sử dụng khi đặt phòng; (3) không thể chấp nhận, chỉ sử dụng nếu không có sự thay thế nào khác; và (4) không bao giờ sử dụng trong bất kỳ điều kiện.

Các đồ thị chẩn đoán quan trọng nhất là sơ đồ thời gian và sơ đồ phân tán các luồng được mô phỏng và ghi lại từ dữ liệu được sử dụng để hiệu chuẩn. Hệ số hiệu quả mô hình R-squared và Nash-Sutcliffe (E) là ưu điểm của các thống kê phù hợp. Ví dụ: kết quả được coi là chấp nhận được nếu E => 0,8

Có những ví dụ khác trong tài liệu. Khi đánh giá một mô hình hệ sinh thái ở Biển Bắc, phân loại sau đây được sử dụng E> 0,65 xuất sắc, 0,5 đến 0,65 rất tốt, 0,2 đến 0,5 là tốt và <0,2 là kém ( Allen et al., 2007 ).

Moriasi và cộng sự, (2015) cung cấp các bảng giá trị chấp nhận được cho các số liệu cho các loại mô hình khác nhau.

Tôi đã tóm tắt thông tin và tài liệu tham khảo này trong một bài đăng trên blog .

Allen, J., P. Somerfield và F. Gilbert (2007), Định lượng độ không đảm bảo trong các mô hình hệ sinh thái ‐ độ phân giải cao kết hợp với thủy lực, J. Mar. Syst., 64 (1 Hay4), 3 xăng14, doi: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. và Daggupati, P. (2015) Mô hình chất lượng thủy văn và nước: Các biện pháp đánh giá và tiêu chí đánh giá của ASABE (Hiệp hội kỹ sư sinh học và nông nghiệp Mỹ) 58 (6): 1763-1785

— Tony Ladson
nguồn

0

Chỉ cần thêm vào các câu trả lời tuyệt vời ở trên - theo kinh nghiệm của tôi, các số liệu đánh giá và các công cụ chẩn đoán cũng tốt và trung thực như người sử dụng chúng. Đó là, nếu bạn hiểu toán học đằng sau chúng, thì bạn có thể tăng chúng một cách giả tạo để làm cho mô hình của bạn xuất hiện tốt hơn mà không làm tăng tiện ích thực tế của nó.

$R^2=0.03 \to R^2 = 0.05$

Tôi sẽ giữ câu trả lời này ngắn vì ở trên làm một công việc tuyệt vời cung cấp giải thích / tài liệu tham khảo. Tôi chỉ muốn thêm một số phối cảnh vào phần trên 6. Số liệu chỉ cung cấp cho bạn một phần của bức tranh bằng câu trả lời của mkt.

Hi vọng điêu nay co ich.

— Samir Rachid Zaim
nguồn

Mô hình của tôi có tốt không, dựa trên giá trị chẩn đoán (

Câu trả lời này chủ yếu sẽ tập trung vào , nhưng hầu hết logic này mở rộng sang các số liệu khác như AUC, v.v.R2R2R^2

Câu trả lời này chủ yếu sẽ tập trung vào , nhưng hầu hết logic này mở rộng sang các số liệu khác như AUC, v.v. $R^2$