Việc phân chia dữ liệu thành các bộ kiểm tra và huấn luyện có hoàn toàn là một điều thống kê hay không?


11

Tôi là sinh viên vật lý học máy học / khoa học dữ liệu, vì vậy tôi không có ý định cho câu hỏi này để bắt đầu bất kỳ xung đột nào :) Tuy nhiên, một phần lớn của bất kỳ chương trình đại học vật lý nào là làm phòng thí nghiệm / thí nghiệm, có nghĩa là rất nhiều dữ liệu xử lý và phân tích thống kê. Tuy nhiên, tôi nhận thấy một sự khác biệt rõ rệt giữa cách các nhà vật lý đối phó với dữ liệu và cách các sách học khoa học / thống kê dữ liệu của tôi đối phó với dữ liệu.

Sự khác biệt chính là khi cố gắng thực hiện hồi quy cho dữ liệu thu được từ các thí nghiệm vật lý, thuật toán hồi quy được áp dụng cho tập dữ liệu WHOLE , hoàn toàn không có sự phân tách thành các tập huấn luyện và kiểm tra. Trong thế giới vật lý, R ^ 2 hoặc một số loại giả-R ^ 2 được tính cho mô hình dựa trên toàn bộ tập dữ liệu. Trong thế giới thống kê, dữ liệu hầu như luôn được chia thành 80-20, 70-30, v.v ... và sau đó mô hình được đánh giá dựa trên tập dữ liệu thử nghiệm.

Ngoài ra còn có một số thí nghiệm vật lý lớn (ATLAS, BICEP2, v.v.) không bao giờ thực hiện việc phân tách dữ liệu này, vì vậy tôi tự hỏi tại sao có sự khác biệt rõ ràng như vậy giữa cách các nhà vật lý / nhà thực nghiệm làm thống kê và cách các nhà khoa học dữ liệu làm thống kê.


1
(+1) câu hỏi rất hay (mà tôi không có thời gian trả lời đúng). Nhận xét: Vật lý có sự xa xỉ của "thí nghiệm thực tế"; thường được kiểm soát / điều kiện phòng thí nghiệm, chủ yếu là các kết quả / biến được xác định rõ và độ lặp lại giả định. Các dự án Sức khỏe Cộng đồng / Kinh tế lượng / Khảo sát Thông thường (đề cập đến một vài lĩnh vực phụ rõ ràng) chỉ không có được điều đó. Bối rối, tính thời vụ (phụ thuộc vào thời gian) và khái niệm trôi dạt trong khái niệm là đầy rẫy trong Thống kê, vì vậy việc "phân tách dữ liệu" này là một trong những cách rõ ràng để ngăn chặn kết quả hoàn toàn ngớ ngẩn. Cộng với không phải tất cả các ước tính được tạo ra hiệu quả như nhau. :)
usεr11852

3
Bạn sẽ tìm thấy vô số các cuộc thảo luận và bối cảnh có liên quan trong một bài thảo luận gần đây của David Donoho, một giáo sư thống kê tại Stanford: khóa học.csail.mit.edu / 18.337/2015 / docs / 50YearsDataScience.pdf Xem đặc biệt cuộc thảo luận về "Văn hóa dự đoán "Như trái ngược với thống kê truyền thống.
Gordon Smyth

1
Tôi nghĩ rằng đó là một "dự đoán trong trường hợp không có lý thuyết", đó là một tập hợp nhỏ của "số liệu thống kê" và một tập hợp lớn của học máy.
The Laconic

các nhà thống kê không phân chia dữ liệu của họ (p <.05)
rep_ho

@rep_ho một số - có lẽ nhiều - các nhà thống kê liên quan đến các tình huống trong đó dự đoán mẫu rất quan trọng (và một số đã được thực hiện trong một thời gian dài). những ý tưởng như thống kê chéo và thống kê bỏ qua (ví dụ) đã có từ rất lâu đời. Tuy nhiên, các nhà thống kê có xu hướng không chia tách một lần, trừ khi điều đó là không thể tránh khỏi. Nó có thể phụ thuộc vào việc các nhà thống kê mà bạn nói chuyện với
Glen_b -Reinstate Monica

Câu trả lời:


6

Không phải tất cả các quy trình thống kê được chia thành dữ liệu huấn luyện / kiểm tra, còn được gọi là "xác thực chéo" (mặc dù toàn bộ quy trình liên quan nhiều hơn thế một chút).

Thay vào đó, đây là một kỹ thuật được sử dụng cụ thể để ước tính lỗi ngoài mẫu ; tức là mô hình của bạn sẽ dự đoán kết quả mới như thế nào bằng cách sử dụng bộ dữ liệu mới? Điều này trở thành một vấn đề rất quan trọng khi bạn có, ví dụ, một số lượng rất lớn các dự đoán liên quan đến số lượng mẫu trong tập dữ liệu của bạn. Trong những trường hợp như vậy, thực sự dễ dàng để xây dựng một mô hình có lỗi in-sample tuyệt vời nhưng lỗi rất lớn (gọi là "over fit"). Trong trường hợp bạn có cả số lượng lớn các yếu tố dự đoán và số lượng mẫu lớn, xác thực chéo là một công cụ cần thiết để giúp đánh giá mô hình sẽ hoạt động tốt như thế nào khi dự đoán trên dữ liệu mới. Đây cũng là một công cụ quan trọng khi lựa chọn giữa các mô hình dự đoán cạnh tranh.

Một lưu ý khác, xác thực chéo hầu như chỉ được sử dụng khi cố gắng xây dựng một mô hình dự đoán . Nói chung, nó không hữu ích cho các mô hình khi bạn đang cố gắng ước tính hiệu quả của một số điều trị. Ví dụ, nếu bạn đang so sánh sự phân bố độ bền kéo giữa các vật liệu A và B ("xử lý" là loại vật liệu), thì việc xác nhận chéo sẽ không cần thiết; trong khi chúng tôi hy vọng rằng ước tính của chúng ta về hiệu quả điều trị khái quát ra khỏi mẫu, đối với hầu hết các vấn đề lý thuyết thống kê cổ điển có thể trả lời này (tức là "sai số chuẩn" dự toán) hơn chính xác hơn cross-validation. Thật không may, phương pháp thống kê cổ điển 1đối với các lỗi tiêu chuẩn không giữ được trong trường hợp quá mức. Xác nhận chéo thường làm tốt hơn nhiều trong trường hợp đó.

Mặt khác, nếu bạn đang cố gắng dự đoán khi nào một tài liệu sẽ phá vỡ dựa trên 10.000 biến đo lường mà bạn đưa vào một số mô hình học máy dựa trên 100.000 quan sát, bạn sẽ gặp nhiều khó khăn khi xây dựng một mô hình tuyệt vời mà không có xác nhận chéo!

Tôi đoán trong rất nhiều thí nghiệm vật lý được thực hiện, bạn thường quan tâm đến việc ước tính hiệu ứng. Trong những trường hợp đó, có rất ít nhu cầu xác nhận chéo.

1 Người ta có thể lập luận rằng các phương pháp Bayes với các linh mục thông tin là một phương pháp thống kê cổ điển nhằm giải quyết vấn đề quá mức. Nhưng đó là một cuộc thảo luận khác.

Lưu ý bên lề: mặc dù việc xác thực chéo lần đầu tiên xuất hiện trong tài liệu thống kê và chắc chắn được sử dụng bởi những người tự gọi mình là thống kê, nó trở thành một công cụ bắt buộc cơ bản trong cộng đồng học máy. Rất nhiều mô hình thống kê sẽ hoạt động tốt mà không cần sử dụng xác thực chéo, nhưng hầu như tất cả các mô hình được coi là "mô hình dự đoán học máy" đều cần xác thực chéo, vì chúng thường yêu cầu lựa chọn các tham số điều chỉnh, gần như không thể thực hiện được nếu không có chéo -Thẩm định.


np

@ usεr11852: có, nhưng gần như không thể chọn các hình phạt chính quy hợp lý mà không có xác nhận chéo (ngoài việc nghĩ về các hình phạt như các linh mục Bayes, nhưng điều đó khó với các mô hình hộp đen!). Và mặc dù chúng tôi muốn kết quả của chúng tôi trong việc so sánh A với B không phải là mẫu, nhưng điều này thường không phải là vấn đề đòi hỏi phải điều chỉnh mô hình (như dự đoán thường làm) và với số lượng tham số tương đối thấp, lý thuyết thống kê cổ điển có thể xử lý việc này mà không sử dụng xác nhận chéo.
Vách đá AB

Đây là một đối số tròn, chính quy hóa sử dụng xác nhận chéo nhưng xác thực chéo được thực hiện để chính quy hóa. Đó là lý do tại sao tôi nhận xét phần nào chống lại nó để bắt đầu. Tôi nghĩ rằng suy luận thống kê / quan hệ nhân quả tránh xa cách tiếp cận điều chỉnh phi mô hình này (xem ví dụ 2016 Johansson và cộng sự "Các biểu diễn học tập cho suy luận trái ngược" - một bài báo đẹp lộn xộn như vậy). Cuối cùng, nghiên cứu Vật lý cơ bản khi trình bày nó, các vấn đề khó cũng có thể dựa vào phương pháp ML (ví dụ: Thử thách học máy Higgs Boson ).
usεr11852

@ usεr11852 Chính quy hóa không "sử dụng" xác thực chéo, mà thay vào đó, tham số điều chỉnh cho chính quy hóa được chọn bằng xác thực chéo. Ví dụ, xem glmentcv.glmnetcho toàn bộ thủ tục trong một chức năng nhỏ gọn đẹp.
Vách đá AB

1
Ngoài ra, tôi không bao giờ đưa ra tuyên bố rằng nghiên cứu vật lý không thể sử dụng các phương pháp ML cũng như xác nhận chéo! Tôi chỉ giải thích rằng xác thực chéo thường được sử dụng cụ thể để chọn giữa các mô hình phức tạp / tham số điều chỉnh trong các mô hình dự đoán và trong nhiều thí nghiệm vật lý cổ điển, không cần xác thực chéo. Vì vậy, những gì các nhà vật lý làm với dữ liệu đó không nhất thiết là mâu thuẫn với những gì các nhà thống kê sẽ làm với dữ liệu đó, mà tôi tin là cốt lõi của câu hỏi của OP.
Vách đá AB

3

nhà hóa học (phân tích) , tôi gặp cả hai cách tiếp cận: tính toán phân tích các số liệu công đức [chủ yếu là hồi quy đơn biến] cũng như đo lường trực tiếp các số liệu dự đoán về công đức.
Việc chia tách thử nghiệm / đào tạo với tôi là "em trai" của một thí nghiệm xác nhận để đo lường chất lượng dự đoán.


Câu trả lời dài:

Các thí nghiệm điển hình chúng tôi thực hiện, ví dụ như trong hóa học vật lý đại học sử dụng hồi quy đơn biến. Thuộc tính quan tâm thường là các tham số mô hình, ví dụ hằng số thời gian khi đo động học phản ứng, nhưng đôi khi cũng dự đoán (ví dụ hiệu chuẩn tuyến tính đơn biến để dự đoán / đo một số giá trị quan tâm).
Những tình huống này rất lành tính về việc không quá mức: thường có một số mức độ tự do thoải mái còn lại sau khi tất cả các tham số được ước tính và chúng được sử dụng để đào tạo (như trong giáo dục) học sinh với sự tự tin cổ điển hoặc tính toán khoảng dự đoán và lỗi cổ điển tuyên truyền - họ đã được phát triển cho những tình huống này. Và ngay cả khi tình huống không hoàn toàn giống như sách giáo khoa (ví dụ: tôi có cấu trúc trong dữ liệu của mình, ví dụ như trong động học, tôi hy vọng dữ liệu được mô tả tốt hơn bằng phương sai giữa các lần chạy phản ứng + phương sai giữa các lần đo trong một lần chạy so với cách tiếp cận chỉ có một phương sai), tôi thường có thể có đủ các lần chạy thử nghiệm để vẫn nhận được kết quả hữu ích.

pnn<pnnndf, các phương pháp cổ điển không hoạt động. Nhưng vì tôi chủ yếu thực hiện các dự đoán, tôi luôn có khả năng trực tiếp đo lường khả năng dự đoán của mô hình của mình: Tôi thực hiện dự đoán và so sánh chúng với các giá trị tham chiếu.

Cách tiếp cận này thực sự rất mạnh mẽ (mặc dù tốn kém do nỗ lực thử nghiệm tăng lên), vì nó cho phép tôi thăm dò chất lượng dự đoán cũng cho các điều kiện không được đề cập trong dữ liệu huấn luyện / hiệu chuẩn. Ví dụ: tôi có thể đo lường chất lượng dự đoán suy giảm như thế nào với phép ngoại suy (ngoại suy bao gồm cả các phép đo được thực hiện, giả sử, một tháng sau khi có được dữ liệu đào tạo), tôi có thể thăm dò độ chắc chắn chống lại các yếu tố gây nhiễu mà tôi cho là quan trọng, v.v. , chúng ta có thể nghiên cứu hành vi của mô hình của mình giống như chúng ta nghiên cứu hành vi của bất kỳ hệ thống nào khác: chúng ta thăm dò một số điểm nhất định hoặc làm nhiễu nó và xem xét sự thay đổi trong câu trả lời của hệ thống, v.v.

Tôi muốn nói rằng chất lượng dự đoán càng quan trọng (và nguy cơ thừa chất lượng càng cao) thì chúng ta càng có xu hướng thích các phép đo trực tiếp về chất lượng dự đoán hơn là các số có nguồn gốc phân tích. (Tất nhiên chúng tôi có thể bao gồm tất cả những yếu tố gây nhiễu đó vào thiết kế của thí nghiệm đào tạo). Một số lĩnh vực như chẩn đoán y tế yêu cầu các nghiên cứu xác nhận hợp lệ được thực hiện trước khi mô hình "thả lỏng" trên bệnh nhân thực.

Việc phân tách kiểm tra / thử nghiệm (cho dù giữ * hoặc xác thực chéo hoặc ngoài bootstrap hoặc ...) thực hiện bước này dễ dàng hơn một bước. Chúng tôi lưu thử nghiệm bổ sung và không ngoại suy (chúng tôi chỉ khái quát để dự đoán các trường hợp độc lập chưa biết về phân phối dữ liệu đào tạo giống nhau). Tôi mô tả điều này như một xác minh thay vì xác nhận (mặc dù xác nhận nằm sâu trong thuật ngữ ở đây). Đây thường là cách thực dụng nếu không có yêu cầu quá cao về độ chính xác của các bằng khen (họ có thể không cần phải biết chính xác trong kịch bản chứng minh khái niệm).

* không nhầm lẫn một phân chia ngẫu nhiên duy nhất thành đào tạo và thử nghiệm với một nghiên cứu được thiết kế đúng để đo lường chất lượng dự đoán.


2
+1 để chỉ ra sự khác biệt trong xác minh và xác nhận.
dự báo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.