Sự khác biệt giữa phân phối dữ liệu đào tạo và kiểm tra


7

Một giả định cơ bản trong học máy là dữ liệu đào tạo và kiểm tra được rút ra từ cùng một dân số, và do đó tuân theo cùng một phân phối. Nhưng, trong thực tế, điều này rất khó xảy ra. Sự thay đổi đồng biến giải quyết vấn đề này. Ai đó có thể xóa những nghi ngờ sau đây về điều này?

Làm thế nào để kiểm tra xem hai phân phối có khác nhau về mặt thống kê không? Ước tính mật độ hạt nhân (KDE) có thể được sử dụng để ước tính phân phối xác suất để cho biết sự khác biệt? Giả sử tôi có 100 hình ảnh của một danh mục cụ thể. Số lượng hình ảnh thử nghiệm là 50 và tôi đang thay đổi số lượng hình ảnh đào tạo từ 5 thành 50 trong các bước 5. Tôi có thể nói phân phối xác suất khác nhau khi sử dụng 5 hình ảnh đào tạo và 50 hình ảnh thử nghiệm sau khi ước tính chúng bằng KDE không?


1
Vui lòng không đăng bài chéo ( stats.stackexchange.com/questions/173968/ cấp )
Dawny33

@ Dawny33: Có vẻ như câu hỏi này có liên quan đến trang web này hơn là xác thực chéo. Đó là lý do tại sao tôi đăng ở đây.
Daniel Wonglee

Đây là một khó khăn vì hai lý do. Nếu việc biến các hình ảnh thành một bản phân phối sử dụng KDE là khả thi, tôi sẽ nói với bạn áp dụng thử nghiệm KolmogorovTHER Smirnov hai mẫu . Nhưng, bản chất hai chiều của hình ảnh sẽ khiến điều này trở nên khó khăn. Ngoài ra, có một hiệu ứng ốp lát trong hình ảnh sẽ không được phục hồi tốt với KS. Vì vậy, tôi đề nghị xử lý hình ảnh: khoảng cách Haussdorff . Ngoài ra kiểm tra bài này .
AN6U5

Câu trả lời:


1

Một cách tốt để đo lường sự khác biệt giữa hai phân phối xác suất là Kullbak-Liebler . Bạn phải tính đến việc phân phối đã tích hợp thành một. Ngoài ra, bạn phải tính đến rằng đó không phải là một khoảng cách vì nó không đối xứng. KL (A, B) không bằng KL (B, A)


0

Nếu bạn đang làm việc với dữ liệu lớn. Phân phối tập huấn và kiểm tra có thể không quá khác nhau. Trong lý thuyết "luật số lượng lớn" đảm bảo rằng phân phối vẫn như cũ. Đối với tập dữ liệu nhỏ hơn có lẽ đây là một điểm tốt để chăm sóc phân phối. Như đã nói bởi Hoap Humanoid "Kullbak-Liebler" có thể được sử dụng để tìm sự khác biệt của các bản phân phối của hai bộ.


1
Tôi muốn thêm rằng sự phân tầng có thể là một công cụ hữu hiệu để đối phó với các tập nhỏ hơn một khi thừa nhận rằng khoảng cách vượt quá ngưỡng của bạn.
pincopallino
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.