Dự đoán có phải là 'tiêu chí vàng' để đánh giá khả năng của các nhà thống kê?


13

Tôi đã đọc các mô hình tuyến tính trong sách giáo khoa của Faraway với R (phiên bản 1) vào cuối tuần trước. Faraway có một chương gọi là "Chiến lược thống kê và sự không chắc chắn của mô hình". Ông mô tả (trang 158) rằng ông đã tạo ra một số dữ liệu bằng cách sử dụng một mô hình rất phức tạp, sau đó ông yêu cầu sinh viên của mình mô hình hóa dữ liệu và so sánh kết quả dự đoán của sinh viên với kết quả đọc. Thật không may, hầu hết các sinh viên đã trang bị quá mức dữ liệu kiểm tra và đưa ra các giá trị dự đoán hoàn toàn không đúng. Để giải thích hiện tượng này, ông đã viết một cái gì đó rất ấn tượng với tôi:

"Lý do các mô hình rất khác nhau là do các sinh viên áp dụng các phương pháp khác nhau theo các thứ tự khác nhau. Một số đã lựa chọn biến trước khi chuyển đổi và ngược lại. Một số lặp lại một phương pháp sau khi mô hình được thay đổi và các phương pháp khác thì không. rằng một số các sinh viên được sử dụng và không thể tìm thấy bất cứ điều gì rõ ràng là sai với những gì họ đã làm. một sinh viên đã phạm sai lầm trong tính toán của mình dự đoán giá trị, nhưng chẳng có gì rõ ràng là sai trong thời gian còn lại. việc thực hiện theo sự phân công này không hiển thị bất kỳ mối quan hệ nào với điều đó trong các kỳ thi. "

Tôi được giáo dục rằng độ chính xác dự đoán mô hình là 'tiêu chí vàng' để chúng tôi chọn hiệu suất mô hình tốt nhất. Nếu tôi không nhầm thì đây cũng là phương pháp phổ biến được sử dụng trong các cuộc thi Kaggle. Nhưng ở đây Faraway đã quan sát một cái gì đó có bản chất khác, rằng hiệu suất dự đoán mô hình có thể không có gì để làmvới khả năng của các thống kê liên quan. Nói cách khác, việc chúng ta có thể xây dựng mô hình tốt nhất về khả năng dự đoán hay không không thực sự được quyết định bởi mức độ chúng ta có kinh nghiệm. Thay vào đó, nó được xác định bởi một "sự không chắc chắn mô hình" rất lớn (may mắn mù quáng?). Câu hỏi của tôi là: điều này có đúng trong phân tích dữ liệu thực tế không? Hay tôi đã nhầm lẫn với một cái gì đó rất cơ bản? Bởi vì nếu điều này là đúng, thì hàm ý của phân tích dữ liệu thực là rất lớn: không biết "mô hình thực" đằng sau dữ liệu, không có sự khác biệt cơ bản giữa công việc được thực hiện bởi các nhà thống kê có kinh nghiệm / thiếu kinh nghiệm: cả hai chỉ là những phỏng đoán hoang dã trước mặt các dữ liệu đào tạo có sẵn.


2
+1 câu hỏi hay. Để đưa ra một góc độ khác, giả sử một trong những nhà phân tích biết chế độ thực sự - thì dự đoán của cô ấy cũng có thể xấu! Vì vậy, ngay cả khi biết mô hình thực sự, bạn sẽ thấy điều này. Quan trọng có thể là quan sát của Haggerty và Srivinasans năm 1991 trong Psychometrika rằng "thực tiễn [...] khi kết luận rằng một mô hình có độ chính xác dự đoán cao hơn là" truer "không phải là một suy luận hợp lệ".
Momo

1
Tôi chưa xem cuốn sách này, nhưng "lựa chọn biến" & "biến đổi" đã gióng lên hồi chuông cảnh báo. Xem Thuật toán để chọn mô hình tự động & Bản chất của Mối quan hệ giữa Người dự đoán và Người phụ thuộc trong Hồi quy . Tôi cũng sẽ không kết hợp hiệu suất thi của sinh viên Thống kê với khả năng làm việc thực tế của các nhà thống kê.
Scortchi - Phục hồi Monica

2
Thông tin này được cung cấp bởi Faraway dường như là giai thoại hết sức được sử dụng làm cơ sở cho một nguyên tắc chung sâu rộng về lĩnh vực thống kê. Tôi sẽ không muốn xây dựng một mô hình về mô hình dự đoán dựa trên các ví dụ không thể lặp lại như vậy. Cũng có thể là họ, dí dỏm hay không, được chọn anh đào.
rolando2

3
Một kết luận hợp lý có thể rút ra từ giai thoại này là không có học sinh nào của Faraway có (chưa) có được các kỹ năng cần thiết để thực hiện tốt bài kiểm tra dự đoán của mình. Thật khó để thực hiện bất kỳ kết nối nào giữa kết quả đó và suy đoán của bạn về cách các nhà thống kê có kinh nghiệm có thể thực hiện.
whuber

@whuber: Tôi không nghĩ như vậy. Tôi đồng ý 28 sinh viên hơi nhỏ, nhưng tôi nghĩ rằng quan sát thực tế này có một số ý nghĩa nghiêm trọng. Nếu Faraway tạo ra mô hình thực sự, và anh ấy đã tiếp tục với công việc của một số sinh viên, không thể tìm thấy bất kỳ sai lầm nghiêm trọng nào, tuy nhiên các dự đoán sẽ khác với những gì họ nên làm. Sau đó, điều này nói lên một điều gì đó về 'sự không chắc chắn của mô hình' có liên quan, rằng ít nhất người ta cần công việc được thực hiện bởi một nhà phân tích riêng biệt để so sánh sự khác biệt, bất kể nhà phân tích ban đầu có kinh nghiệm đến mức nào. Tôi nghĩ rằng điều này là khá đáng báo động với tôi.
Bombyx mori

Câu trả lời:


1

Tôi đã hỏi giáo sư trong khoa của tôi về điều này. Anh nói thẳng thắn rằng anh không hề ngạc nhiên về điều đó. Ông đề xuất cách sau đây để xem xét điều này: những gì Faraway đã làm chỉ là thử nghiệm một lần và không có gì đáng ngạc nhiên khi kết quả dường như không có mối tương quan với điểm cuối cùng. Nhưng nếu Faraway lặp lại 'thí nghiệm' của mình 100 lần với cùng một nhóm sinh viên, anh ta chắc chắn rằng các sinh viên học được các số liệu thống kê tốt hơn sẽ hoạt động tốt, tương tự như khoảng tin cậy. Vì vậy, theo kinh nghiệm ý kiến ​​của anh ấy có vấn đề, nó chỉ là một thử nghiệm xã hội một lần không thể hiển thị nó vì sự không chắc chắn của mô hình.


Tôi thấy cái cớ đó rất vui nhộn. Tôi nghĩ rằng đây là lý do tại sao số liệu thống kê được thay thế bằng (hoặc được đặt tên lại là "khoa học dữ liệu". Mọi người bắt đầu nhận ra rằng các trường đại học được giảng dạy thống kê không giỏi dự đoán và các mô hình không có sức mạnh dự đoán là vô ích.
Flounderer

1
@Flounderer: Tôi nghĩ rằng đây không thực sự là một cái cớ, và những gì bạn viết có thể không thực sự kết nối tốt với trường hợp này. Hầu hết thời gian trong đời thực, người ta có cả bộ thử nghiệm và bộ huấn luyện, không giống như trong trường hợp của Faraway chỉ có một bộ huấn luyện có sẵn. Thứ hai nếu bạn xem mô hình của Faraway, nó rất phi tuyến tính sao cho các phương thức hồi quy không hoạt động tốt. Do đó tất cả các mô hình tuyến tính chỉ là phỏng đoán hoang dã. Đạo đức của thí nghiệm là "tất cả các mô hình đều sai" thay vì "thống kê như được dạy trong các trường đại học không tốt lắm trong dự đoán".
Bombyx mori

@Flounderer: Nói cách khác, tôi tin rằng nếu tôi (hoặc bất kỳ ai khác trong diễn đàn) ở vị trí của sinh viên Faraway hai mươi năm trước đối mặt với tập huấn luyện wierd này, chúng tôi khó có thể làm tốt hơn nếu chỉ sử dụng mô hình tuyến tính. Tôi không nghĩ rằng đây là một cái gì đó liên quan đến "thống kê như được dạy trong các trường đại học" cả.
Bombyx mori

1

Các mô hình của học sinh hầu hết đều phù hợp. Với n điểm dữ liệu, người ta luôn có thể phù hợp với một đa thức hoàn hảo của thứ tự n-1. Một mô hình như vậy là quá hạn không để lại lỗi ngẫu nhiên. Có vẻ như các sinh viên đã mắc lỗi overfittng tương tự, nhưng có lẽ với các chức năng khác nhau.

Quá mức là một lỗi chỉ nên được thực hiện bởi các sinh viên. Và điều này cho thấy kinh nghiệm và giáo dục là trình độ cần thiết cho mô hình.


2
"Quá mức là một lỗi chỉ nên được thực hiện bởi các sinh viên" là một tiêu chuẩn khá cao phải chịu. Làm người mẫu thật khó. Có lẽ một cái gì đó như "Quá mức là một cái gì đó các nhà mô hình học cách nhận ra và tránh thông qua kinh nghiệm và giáo dục" sẽ gần với sự thật hơn?
Matthew Drury
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.