Lợi ích của việc phân tầng so với lấy mẫu ngẫu nhiên để tạo dữ liệu đào tạo trong phân loại


20

Tôi muốn biết nếu có bất kỳ / một số lợi thế của việc sử dụng lấy mẫu phân tầng thay vì lấy mẫu ngẫu nhiên, khi tách tập dữ liệu gốc thành tập huấn luyện và kiểm tra để phân loại.

Ngoài ra, lấy mẫu phân tầng có đưa ra nhiều sai lệch vào phân loại hơn so với lấy mẫu ngẫu nhiên không?

Ứng dụng mà tôi muốn sử dụng lấy mẫu phân tầng để chuẩn bị dữ liệu, là một trình phân loại Rừng ngẫu nhiên, được đào tạo về của bộ dữ liệu ban đầu. Trước khi phân loại, cũng có một bước tạo thế hệ mẫu tổng hợp (SMOTE [1]) để cân bằng kích thước của các lớp.23

[1] Chawla, Nitesh V., et al. " SMote: kỹ thuật lấy mẫu quá mức tổng hợp thiểu số. " Tạp chí Nghiên cứu Trí tuệ Nhân tạo 16 (2002): 321-357.

Câu trả lời:


20

Lấy mẫu phân tầng nhằm mục đích phân tách một tập dữ liệu sao cho mỗi phân chia tương tự nhau đối với một cái gì đó.

Trong cài đặt phân loại, nó thường được chọn để đảm bảo rằng các bộ thử nghiệm và xe lửa có tỷ lệ phần trăm mẫu của mỗi lớp mục tiêu tương đương với bộ hoàn chỉnh.

Kết quả là, nếu tập dữ liệu có số lượng lớn của mỗi lớp, lấy mẫu phân tầng gần giống như lấy mẫu ngẫu nhiên. Nhưng nếu một lớp không được biểu thị nhiều trong tập dữ liệu, đó có thể là trường hợp trong tập dữ liệu của bạn vì bạn dự định chồng chéo lớp thiểu số, thì lấy mẫu phân tầng có thể mang lại phân phối lớp mục tiêu khác nhau trong tập huấn luyện và kiểm tra so với ngẫu nhiên lấy mẫu có thể mang lại.

Lưu ý rằng việc lấy mẫu phân tầng cũng có thể được thiết kế để phân phối đồng đều một số tính năng trong các bộ thử nghiệm và xe lửa tiếp theo. Ví dụ: nếu mỗi mẫu đại diện cho một cá nhân và một tính năng là tuổi, đôi khi có phân phối độ tuổi giống nhau trong cả tập huấn và kiểm tra.

Tài chính

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.