Có phải tốt hơn để làm phân tích dữ liệu thăm dò chỉ trên tập dữ liệu đào tạo?

14

Tôi đang thực hiện phân tích dữ liệu thăm dò (EDA) trên một tập dữ liệu. Sau đó, tôi sẽ chọn một số tính năng để dự đoán một biến phụ thuộc.

Câu hỏi là:
Tôi có nên làm EDA trên tập dữ liệu huấn luyện của mình không? Hoặc tôi nên tham gia các bộ dữ liệu huấn luyện và kiểm tra cùng nhau sau đó thực hiện EDA trên cả hai và chọn các tính năng dựa trên phân tích này?

— Aboelnour
nguồn

6

Tôi khuyên bạn nên xem "7.10.2 Sai và đúng cách để xác thực chéo" trong http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .

Các tác giả đưa ra một ví dụ trong đó ai đó làm như sau:

Sàng lọc các yếu tố dự đoán: tìm một tập hợp con của các yếu tố dự đoán tốt, cho thấy mối tương quan khá mạnh (không biến đổi) với các nhãn lớp
Chỉ sử dụng tập hợp con của các yếu tố dự đoán này, xây dựng một bộ phân loại đa biến.
Sử dụng xác thực chéo để ước tính các tham số điều chỉnh chưa biết và để ước tính lỗi dự đoán của mô hình cuối cùng

Điều này nghe có vẻ rất giống với việc thực hiện EDA trên tất cả (tức là kiểm tra cộng với kiểm tra) dữ liệu của bạn và sử dụng EDA để chọn các dự đoán "tốt".

Các tác giả giải thích lý do tại sao điều này có vấn đề: tỷ lệ lỗi được xác thực chéo sẽ thấp một cách giả tạo, điều này có thể khiến bạn lầm tưởng rằng bạn đã tìm thấy một mô hình tốt.

— Adrian
nguồn

1

Vì vậy, bạn muốn xác định các biến độc lập có ảnh hưởng đến biến phụ thuộc của bạn?

Sau đó, cả hai cách tiếp cận của bạn thực sự không được khuyến khích.

Sau khi xác định câu hỏi nghiên cứu của bạn, bạn nên phát triển lý thuyết của mình. Điều đó có nghĩa là, bằng cách sử dụng tài liệu, bạn nên xác định các biến sẽ có hiệu lực (bạn sẽ có thể giải thích lý do).

— Peter Clark
nguồn

6

Mặc dù quan điểm này có vẻ đồng ý với khái niệm cổ điển về kiểm tra thống kê (và do đó khiến tôi không đồng ý), có rất nhiều vấn đề hiện đại mà điều này không khả thi. Ví dụ: giả sử bạn muốn xem liệu có bất kỳ trong số 20.000 gen mã hóa protein có liên quan đến một bệnh di truyền mới hay không. Không có nền tảng nào có thể chuẩn bị cho bạn, không có cách nào để "đưa ra một lý thuyết" và EDA là cách duy nhất để bắt đầu. Và nếu bạn có đủ dữ liệu cho EDA và phân tích xác nhận, bạn thực sự có thể nhận được ở đâu đó.

— Vách đá AB

3

"Bạn nên phát triển lý thuyết của mình" - đó là một ý tưởng tốt, nhưng không phải lúc nào cũng có thể, đặc biệt, trong ngành. Đôi khi, bạn chỉ cần tiếp tục với việc dự báo mà không phát triển bất kỳ lý thuyết nào

— Aksakal

1

Áp dụng EDA trên dữ liệu thử nghiệm là sai.

Đào tạo là quá trình xem xét các câu trả lời chính xác để tạo ra mô hình tốt nhất. Quá trình này không chỉ giới hạn ở việc chạy mã trên dữ liệu đào tạo. Sử dụng thông tin từ EDA để quyết định sử dụng mô hình nào, điều chỉnh các tham số, v.v. là một phần của quy trình đào tạo và do đó không được phép truy cập vào dữ liệu thử nghiệm. Vì vậy, để thành thật với chính mình, chỉ sử dụng dữ liệu thử nghiệm để kiểm tra hiệu suất của mô hình.

Ngoài ra, nếu bạn nhận ra mô hình không hoạt động tốt trong quá trình thử nghiệm và sau đó bạn quay lại để điều chỉnh mô hình của mình, thì điều đó cũng không tốt. Thay vào đó, hãy chia dữ liệu đào tạo của bạn thành hai. Sử dụng một để đào tạo và một cái khác để kiểm tra và điều chỉnh (các) mô hình của bạn. Xem sự khác biệt giữa bộ kiểm tra và bộ xác nhận là gì?

— tilish
nguồn

0

Sau đoạn văn của câu trả lời này . Hastie giải thích thêm về p.245 :

"Đây là cách chính xác để thực hiện xác nhận chéo trong ví dụ này:

Chia mẫu thành K lần xác thực chéo (nhóm) một cách ngẫu nhiên.

Với mỗi lần gấp k = 1, 2 ,. . . , K
(a) Tìm một tập hợp con của các công cụ dự đoán tốt của Tốt cho thấy mối tương quan khá mạnh (đơn biến) với các nhãn lớp, sử dụng tất cả các mẫu ngoại trừ các mẫu trong k gấp.
(b) Chỉ sử dụng tập hợp con các yếu tố dự đoán này, xây dựng bộ phân loại đa biến, sử dụng tất cả các mẫu ngoại trừ các mẫu trong k gấp.
(c) Sử dụng trình phân loại để dự đoán nhãn lớp cho các mẫu trong k. "

— người dùng2672299
nguồn

-3

Bạn làm EDA trên toàn bộ tập dữ liệu. Chẳng hạn, nếu bạn đang sử dụng xác thực chéo một lần , bạn sẽ chỉ thực hiện EDA như thế nào trên tập dữ liệu huấn luyện ? Trong trường hợp này, mọi quan sát đều được đào tạo và tổ chức ít nhất một lần.

Vì vậy, không, bạn hình thành sự hiểu biết của bạn về dữ liệu trên toàn bộ mẫu. Nếu bạn ở trong khu công nghiệp, điều đó càng rõ ràng hơn. Bạn dự kiến sẽ hiển thị các xu hướng và mô tả chung về dữ liệu cho các bên liên quan trong công ty và bạn thực hiện điều đó trên toàn bộ mẫu.

— Aksakal
nguồn