Câu hỏi về trừ trung bình trên tàu / hợp lệ / bộ kiểm tra


11

Tôi đang thực hiện quá trình tiền xử lý dữ liệu và sẽ xây dựng một Convonets trên dữ liệu của mình sau đó.

Câu hỏi của tôi là: Giả sử tôi có tổng số bộ dữ liệu với 100 hình ảnh, tôi đã tính toán trung bình cho mỗi một trong số 100 hình ảnh và sau đó trừ nó khỏi từng hình ảnh, sau đó chia chúng thành tập hợp và xác thực và tôi cũng làm như vậy các bước để xử lý trên một bộ kiểm tra nhất định, nhưng có vẻ như đây không phải là cách chính xác để thực hiện theo liên kết này: http://cs231n.github.io/neural-networks-2/#datapre

" Cạm bẫy thông thường . Một điểm quan trọng cần thực hiện về quá trình tiền xử lý là mọi thống kê tiền xử lý (ví dụ: trung bình dữ liệu) chỉ phải được tính trên dữ liệu huấn luyện, sau đó áp dụng cho dữ liệu kiểm tra / kiểm tra. Ví dụ: tính toán trung bình và trừ nó mỗi hình ảnh trên toàn bộ tập dữ liệu và sau đó phân tách dữ liệu thành các phần tách train / val / test sẽ là một sai lầm. Thay vào đó, giá trị trung bình chỉ được tính trên dữ liệu huấn luyện và sau đó trừ đi tất cả các phần tách (train / val / test). "

Tôi đoán tác giả đang nói gì, không tính trung bình và trừ nó trong mỗi hình ảnh mà tính giá trị trung bình của tổng số hình ảnh (nghĩa là (image1 + ... + image100) / 100) và trừ đi giá trị trung bình mỗi hình ảnh.

Tôi không hiểu ai có thể giải thích? và cũng có thể giải thích tại sao những gì tôi đang làm là sai (nếu nó thực sự sai).


Chào mừng đến với cộng đồng. Xin vui lòng xem câu trả lời của tôi dưới đây.
usεr11852

Câu trả lời:


6

Giả sử bạn có tổng cộng 100 hình ảnh; 90 là dữ liệu đào tạo và 10 là dữ liệu thử nghiệm.

μ^μ^

μ^μ^


μ^

1
μ^

@ usεr11852 Tại sao có nhiều thông tin hơn có nghĩa là gây hại cho mô hình của chúng tôi? Điều này sẽ không gây ra thông tin về "biến phản ứng ngoài mẫu", theo bất kỳ cách nào can thiệp vào đào tạo của chúng tôi, phải không? Vậy tại sao lỗi tàu sẽ thấp?
GeneX

1
μ^

... bởi một số sán, tất cả những người cao tuổi kết thúc trong phần thử nghiệm. Nếu chúng ta chỉ tính tuổi trung bình trong tập huấn luyện, rõ ràng chúng ta sẽ có tuổi trung bình thấp hơn so với toàn bộ mẫu của chúng ta. Sử dụng tuổi trung bình rõ ràng thiên vị này có thể sẽ làm giảm Ahiệu suất của mô hình nếu Akhông khái quát tốt cho các độ tuổi khác nhau. Nếu chúng ta tính tuổi trung bình trong toàn bộ dữ liệu, chúng ta sẽ có tuổi trung bình đại diện hơn. Nếu bây giờ chúng ta sử dụng tuổi trung bình không thiên vị này trong mô hình, Achúng ta có thể sẽ có hiệu suất tốt hơn trước mặc dù Akhông khái quát tốt cho các độ tuổi khác nhau.)
usεr11852
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.