Loại xác nhận chéo nào phù hợp nhất với vấn đề phân loại nhị phân


7

Tập dữ liệu trông như:

  • 25000 quan sát
  • lên đến 15 dự đoán thuộc các loại khác nhau: số, phân loại nhiều lớp, nhị phân
  • biến mục tiêu là nhị phân

Phương pháp xác nhận chéo nào là điển hình cho loại vấn đề này?

Theo mặc định, tôi đang sử dụng K-Fold. Bao nhiêu lần là đủ trong trường hợp này? (Một trong những mô hình tôi sử dụng là rừng ngẫu nhiên, tốn thời gian ...)


2
Với k = 5, bạn sẽ nhận được 20k quan sát trong tập huấn luyện và 5k trong tập thử nghiệm. Với k = 25, bạn sẽ nhận được 24k cho đào tạo và 1k cho thử nghiệm. Nếu bạn tin rằng các bản ghi 4k bổ sung sẽ ảnh hưởng đến việc khái quát hóa rất nhiều, hãy sử dụng k lớn hơn. Nếu bạn nghĩ rằng thậm chí, giả sử, hồ sơ 10k đã cho sự khái quát tốt, hãy sử dụng k nhỏ hơn. Nếu bạn không chắc chắn, chỉ cần sử dụng xác nhận chéo 10 lần tiêu chuẩn, đó là một sự thỏa hiệp tốt trong hầu hết các trường hợp.

Câu trả lời:


5

Bạn sẽ có kết quả tốt nhất nếu bạn quan tâm đến việc xây dựng các nếp gấp sao cho mỗi biến số (và quan trọng nhất là biến mục tiêu) được phân phối gần đúng trong mỗi nếp gấp. Điều này được gọi, khi áp dụng cho biến mục tiêu, phân tầng k-Fold. Một cách tiếp cận là phân cụm các đầu vào và đảm bảo mỗi nếp gấp có cùng số lượng phiên bản từ mỗi cụm tỷ lệ với kích thước của chúng.


4

Tôi nghĩ rằng trong trường hợp của bạn, CV gấp 10 lần sẽ ổn

Tôi nghĩ điều quan trọng là ngẫu nhiên hóa quá trình xác nhận chéo hơn là chọn giá trị lý tưởng cho k.

Vì vậy, lặp lại quá trình CV nhiều lần một cách ngẫu nhiên và tính toán phương sai của kết quả phân loại của bạn để xác định xem kết quả có khả thi hay không.


2

Tôi phải đồng ý rằng k-Fold nên làm "chỉ" tốt. Tuy nhiên, có một bài viết hay về phương pháp "Bootstrap .632+" (về cơ bản là xác thực chéo được làm mịn) được cho là vượt trội (tuy nhiên, họ đã so sánh về dữ liệu không nhị phân theo như tôi có thể nói)

Có lẽ bạn muốn xem bài viết này tại đây: http://www.jstor.org/ sóng / 2965703


0

K-Fold chỉ nên làm tốt cho vấn đề phân loại nhị phân. Tùy thuộc vào thời gian cần thiết để đào tạo mô hình của bạn và dự đoán kết quả tôi sẽ sử dụng 10-20 lần.

Tuy nhiên, đôi khi một lần duy nhất mất vài phút, trong trường hợp này tôi sử dụng 3-5 lần nhưng không ít hơn 3. Hy vọng nó sẽ giúp.


0

Thành thật mà nói, phân loại nhị phân là loại dễ nhất so với phân loại nhiều lớp vì đôi khi bạn có thể phân loại một lớp sai thành đúng. Vì vậy, nếu bạn có một tập dữ liệu với đa lớp, bạn sẽ cần một phân phối tốt giữa chúng, vì vậy kỳ vọng là nhiều mẫu sẽ cung cấp cái nhìn sâu sắc hơn, tức là CV sẽ ít hơn. Tuy nhiên, trong trường hợp phân loại nhị phân nếu phân phối lớp của bạn đủ cân bằng, bạn có thể dễ dàng đi CV = 10 cho 25k quan sát, tuy nhiên nếu phân phối lớp bị lệch, bạn nên đi với ít CV.

Vì vậy, tóm lại trong trường hợp phân phối nhị phân giá trị CV thực sự phụ thuộc vào phân phối lớp của bạn và không nhiều về số lượng quan sát.


0

Trừ khi phân phối nhãn được cân bằng, lấy mẫu phân tầng các nếp gấp sẽ cho bạn ước tính hiệu suất tốt hơn so với lấy mẫu ngẫu nhiên.

Ngoài ra, cố gắng tránh các mẫu tương quan kết thúc ở các nếp gấp khác nhau. Nếu không, các mô hình của bạn có khả năng bị quá mức và lỗi được đánh giá thấp. Ví dụ: nếu dữ liệu của bạn chứa tương quan thời gian, luôn được phân chia theo thời gian.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.