Tại sao không phải là phương pháp nắm giữ (chia dữ liệu thành đào tạo và thử nghiệm) được sử dụng trong thống kê cổ điển?

12

Trong lớp học của tôi tiếp xúc với khai thác dữ liệu, phương pháp nắm giữ được giới thiệu như một cách đánh giá hiệu suất mô hình. Tuy nhiên, khi tôi học lớp đầu tiên về các mô hình tuyến tính, điều này không được giới thiệu như một phương tiện xác nhận hoặc đánh giá mô hình. Nghiên cứu trực tuyến của tôi cũng không hiển thị bất kỳ loại giao lộ. Tại sao phương pháp nắm giữ không được sử dụng trong thống kê cổ điển?

— khó chịu
nguồn

22

Một câu hỏi hiệu quả hơn có thể là "tại sao nó không được sử dụng trong các số liệu thống kê cổ điển mà tôi đã học?"

Tùy thuộc vào cấp độ mà nó được dạy, nội dung khóa học (và thời gian có sẵn) mà sự lựa chọn có thể là do sự kết hợp của nhiều yếu tố khác nhau. Thông thường các chủ đề quan trọng bị bỏ qua một bên vì tài liệu khác phải được dạy vì lý do này hay lý do khác, với hy vọng rằng chúng có thể được đề cập trong các môn học sau này.

Trong một số giác quan ít nhất, khái niệm này đã được sử dụng từ lâu bởi nhiều người. Nó đã phổ biến hơn ở một số khu vực hơn những nơi khác. Nhiều sử dụng số liệu thống kê không có dự đoán hoặc lựa chọn mô hình như là một thành phần chính (hoặc trong một số trường hợp, thậm chí cả), và trong trường hợp đó, việc sử dụng các mẫu giữ có thể ít quan trọng hơn khi dự đoán là điểm chính. Có thể cho rằng, nó đã được sử dụng rộng rãi hơn ở giai đoạn sớm hơn trong một số ứng dụng có liên quan so với trước đây, nhưng đó không phải là điều tương tự như chưa biết.

Nếu bạn nhìn vào các khu vực tập trung vào dự đoán, khái niệm đánh giá mô hình bằng cách dự đoán dữ liệu bạn không sử dụng để ước tính mô hình của bạn chắc chắn xuất hiện (mặc dù không phải là phổ quát). Tôi chắc chắn đã làm điều đó với mô hình chuỗi thời gian tôi đã làm vào những năm 1980, ví dụ, trong đó hiệu suất dự đoán ngoài mẫu của dữ liệu gần đây nhất là đặc biệt quan trọng.

Khái niệm loại bỏ ít nhất một số dữ liệu đã được sử dụng trong hồi quy (ví dụ đã xóa, PRESS, jacknife, v.v.) và trong phân tích ngoại lệ, chẳng hạn.

Một số trong những ý tưởng dữ liệu trở lại một thỏa thuận tốt trước đó vẫn còn. Stone (1974) [1] đề cập đến các bài báo về xác nhận chéo (với từ trong tiêu đề) từ những năm 1950 và 60. Có lẽ thậm chí gần hơn với ý định của bạn, ông đề cập đến việc Simon (1971) sử dụng thuật ngữ "mẫu xây dựng" và "mẫu xác nhận" - nhưng cũng chỉ ra rằng "Larson (1931) đã sử dụng phân chia mẫu ngẫu nhiên trong bội số giáo dục nghiên cứu -regression ".

Các chủ đề như xác nhận chéo, và sử dụng số liệu thống kê dựa trên dự đoán, v.v., đã trở nên thường xuyên hơn trong tài liệu thống kê trong thập niên 70 và thập niên 80, nhưng nhiều ý tưởng cơ bản đã xuất hiện khá lâu sau đó.

[1]: Stone, M., (1974)
"Lựa chọn và đánh giá hợp lệ các dự đoán thống kê",
Tạp chí của Hiệp hội thống kê Hoàng gia. Dòng B (Phương pháp luận) , Tập. 36, số 2., trang 111-147

— Glen_b -Reinstate Monica
nguồn

Chỉ để ghi lại, rằng M. Stone không phải là tôi, anh ấy cũng không liên quan đến tôi, ngoại trừ có thể thông qua Adam và Eva.

— Mark L. Stone

11

Để bổ sung cho câu trả lời của Glen_b, thống kê cổ điển thường có / nhấn mạnh vào việc sử dụng dữ liệu tối ưu, kiểm tra tối ưu, ước tính tối ưu, đầy đủ, v.v. và trong khung lý thuyết đó, rất khó để biện minh cho việc không sử dụng một phần thông tin ! Một phần của truyền thống đó là nhấn mạnh vào các tình huống với các mẫu nhỏ, trong đó thực tế khó nắm bắt.

Fisher làm việc, ví dụ, chủ yếu với di truyền và thí nghiệm nông nghiệp, và trong các lĩnh vực đó, số lượng nhỏ các quan sát là quy luật. Vì vậy, ông chủ yếu tiếp xúc với các vấn đề như vậy với các tập dữ liệu nhỏ.

— kjetil b halvorsen
nguồn

6

Tôi sẽ trả lời từ một lĩnh vực ứng dụng có thể nằm giữa thống kê cổ điển và học máy: hóa học, tức là thống kê cho các phân tích hóa học. Tôi sẽ thêm hai kịch bản khác nhau trong đó việc tổ chức không quan trọng như trong các lớp học máy thông thường.

Cảnh 1:

Tôi nghĩ một điểm cốt yếu ở đây là nhận ra rằng có một sự khác biệt cơ bản trong cỡ mẫu nhỏ để đào tạo so với thử nghiệm:

Đối với đào tạo, điển hình là tỷ lệ số lượng các trường hợp: độ phức tạp của mô hình (số lượng tham số) các vấn đề (mức độ tự do)
Đối với thử nghiệm, số lượng tuyệt đối của các trường hợp thử nghiệm có vấn đề.
(Chất lượng của quy trình thử nghiệm phải độc lập với mô hình: được coi là hộp đen bằng cách xác nhận với các trường hợp thử nghiệm độc lập)

Điểm thứ hai tôi sẽ cần cho lập luận của mình là tình huống trong đó các trường hợp kiểm tra độc lập rất quan trọng là quá mức. Nếu mô hình không đủ phức tạp (sai lệch $\gg$ đúng, vì vậy dưới phù hợp), dư có thể cho bạn biết càng nhiều về tổng lỗi dự đoán là trường hợp độc lập.

Bây giờ, các bài giảng thống kê về các mô hình tuyến tính "cổ điển" thường nhấn mạnh rất nhiều vào các mô hình đơn biến. Đối với mô hình tuyến tính đơn biến, kích thước mẫu đào tạo có thể không nhỏ: kích thước mẫu đào tạo thường được đánh giá so với độ phức tạp của mô hình và mô hình tuyến tính chỉ có hai tham số, bù và độ dốc. Trong hóa học phân tích, chúng tôi thực sự có một định mức quy định rằng bạn nên có ít nhất 10 mẫu hiệu chuẩn cho hiệu chuẩn tuyến tính đơn biến của bạn. Điều này đảm bảo một tình huống mà sự không ổn định của mô hình đáng tin cậy không phải là một vấn đề, do đó không cần thiết phải chờ đợi.

Tuy nhiên, trong học máy, cũng như với các máy dò đa kênh hiện đại trong phân tích hóa học (đôi khi 10⁴ "kênh", ví dụ như trong phép đo phổ khối), độ ổn định của mô hình (tức là phương sai) là một vấn đề quan trọng. Do đó, việc giữ lại hoặc lấy mẫu tốt hơn là cần thiết.

Kịch bản 2:

Một tình huống hoàn toàn khác là có thể bỏ qua việc ủng hộ kết hợp một cách dễ dàng hơn (phần dư) cộng với phép đo hiệu suất phức tạp hơn. Lưu ý rằng hold-out theo nghĩa (ngẫu nhiên) thiết lập dự trữ một phần của một tập hợp dữ liệu và loại trừ này từ những bài tập là không tương đương với những gì thử nghiệm độc lập có thể đạt được. Trong hóa học phân tích, các thí nghiệm xác nhận chuyên dụng có thể được tiến hành bao gồm, ví dụ đo lường sự suy giảm hiệu suất theo thời gian (độ trôi của dụng cụ) không thể đo được bằng cách giữ và thiết lập, ví dụ hiệu suất của cảm biến trong môi trường công nghiệp thực tế (trong khi hiệu chuẩn cảm biến đã được thực hiện trong phòng thí nghiệm trên các mẫu hiệu chuẩn). Xem thêm /stats//a/104750/4598 để biết thêm chi tiết về thử nghiệm độc lập so với chờ đợi.

— cbeleites hỗ trợ Monica
nguồn

Ở trên, trong sceanario 1, tôi nghĩ bạn có ý muốn nói (sai lệch << phương sai)? Hãy sửa!

— Kjetil b Halvorsen

1

@kjetilbhalvorsen không, bởi vì cô ấy đang đề cập đến việc đánh giá thấp trong đoạn đó (mô hình không đủ phức tạp).

— Marc Claesen

@kjetilbhalvorsen; Marc Claesen đã đúng, tôi nhấn mạnh rằng đây là tình huống mà bạn có thể chắc chắn rằng vấn đề đang bị thiếu.

— cbeleites hỗ trợ Monica

ĐỒNG Ý. một số chữ cái để đáp ứng req

— kjetil b halvorsen