Học tập có giám sát với các sự kiện hiếm hoi của người Hồi giáo, khi sự hiếm hoi là do số lượng lớn các sự kiện thực tế


13

Giả sử bạn có thể quan sát "trận đấu" giữa người mua và người bán trên thị trường. Bạn cũng có thể quan sát các đặc điểm của cả người mua và người bán mà bạn muốn sử dụng để dự đoán các trận đấu trong tương lai và đưa ra khuyến nghị cho cả hai bên của thị trường.

Để đơn giản, giả sử có N người mua và N người bán và mỗi người tìm thấy một kết quả khớp. Có N trận đấu và (N-1) (N-1) không khớp. Bộ dữ liệu đào tạo bao gồm tất cả có các quan sát N + (N-1) * (N-1), có thể rất lớn. Dường như việc lấy mẫu ngẫu nhiên từ các kết quả không khớp (N-1) (N-1) và đào tạo một thuật toán trên dữ liệu giảm đó có thể hiệu quả hơn. Câu hỏi của tôi là:

(1) Lấy mẫu từ các trận đấu không phù hợp để xây dựng tập dữ liệu huấn luyện có phải là cách hợp lý để giải quyết vấn đề này không?

(2) Nếu (1) là đúng, có cách nào nghiêm ngặt để quyết định mức độ lớn của một phần của (N-1) (N-1) không?

Câu trả lời:


11

Nếu tôi hiểu chính xác, bạn có một vấn đề phân loại hai lớp, trong đó lớp dương (khớp) là hiếm. Nhiều người phân loại đấu tranh với sự mất cân bằng lớp như vậy và thông thường nên lấy mẫu phụ cho lớp đa số để có được hiệu suất tốt hơn, vì vậy câu trả lời cho câu hỏi đầu tiên là "có". Tuy nhiên, nếu bạn lấy mẫu phụ quá nhiều, bạn sẽ kết thúc với một bộ phân loại dự đoán quá mức nhóm dương tính thiểu số, vì vậy, điều tốt nhất cần làm là chọn khẩu phần lấy mẫu phụ để tối đa hóa hiệu suất, có thể bằng cách giảm thiểu chéo lỗi xác thực trong đó dữ liệu thử nghiệm chưa được lấy mẫu phụ để bạn có được một dấu hiệu tốt về hiệu suất hoạt động.

Nếu bạn có một trình phân loại xác suất, đưa ra ước tính về khả năng có thể xảy ra của việc ghi nhớ lớp, bạn có thể thực hiện tốt hơn và xử lý hậu quả đầu ra để bù cho sự khác biệt giữa tần số lớp trong tập huấn luyện và trong hoạt động. Tôi nghi ngờ rằng đối với một số phân loại, cách tiếp cận tối ưu là tối ưu hóa cả tỷ lệ lấy mẫu phụ và hiệu chỉnh cho đầu ra bằng cách tối ưu hóa lỗi xác thực chéo.

Thay vì lấy mẫu phụ, đối với một số phân loại (ví dụ: SVM), bạn có thể đưa ra các trọng số khác nhau cho các mẫu tích cực và tiêu cực. Tôi thích điều này để lấy mẫu phụ vì nó có nghĩa là không có sự thay đổi trong kết quả do mẫu phụ cụ thể được sử dụng. Trong trường hợp không thể, hãy sử dụng bootstrapping để tạo một bộ phân loại đóng gói, trong đó một mẫu con khác của lớp đa số được sử dụng trong mỗi lần lặp.

Một điều khác tôi muốn nói là thông thường khi có sự mất cân bằng lớp lớn, lỗi âm tính giả và lỗi dương tính giả không tệ như nhau, và đó là một ý tưởng tốt để xây dựng điều này vào thiết kế phân loại (có thể được thực hiện bởi phụ mô hình lấy mẫu hoặc trọng số thuộc về mỗi lớp).


3
(+1), tuy nhiên tôi nghĩ người ta phải phân biệt giữa mục tiêu xếp hạng (biện pháp: AUC) và tách hai lớp (biện pháp: Độ chính xác). Trong trường hợp trước đây, được đưa ra một lớp học xác suất như Naive Bayes, sự mất cân bằng đóng vai trò ít hơn, tôi cho rằng. Hay người ta cũng nên lo lắng trong trường hợp này? Một câu hỏi khác: Ý của bạn là "hậu xử lý đầu ra" là gì? Chuyển đổi điểm số thành xác suất thực tế?
steffen

@Steffen Trực giác của tôi là vấn đề mất cân bằng lớp học không phải là vấn đề để xếp hạng, nhưng nó sẽ không biến mất hoàn toàn (tôi đang nghiên cứu một bài báo về vấn đề này, vì vậy đó là điều đáng để giải quyết). Bằng cách xử lý hậu kỳ, tôi có nghĩa là nhân các kết quả đầu ra với tỷ lệ của tần số lớp tập hợp hoạt động và đào tạo và sau đó chuẩn hóa lại để xác suất của tất cả các kết quả có thể tổng hợp thành một. Tuy nhiên, trong thực tế, hệ số tỷ lệ tối ưu thực tế có thể sẽ hơi khác một chút - do đó tối ưu hóa với XVAL (nhưng vẫn tái chuẩn hóa).
Dikran Marsupial

1

Liên quan (1). Bạn cần giữ những quan sát tích cực và tiêu cực nếu bạn muốn kết quả có ý nghĩa.
(2) Không có phương pháp lấy mẫu nào khôn ngoan hơn phân phối đồng đều nếu bạn không có bất kỳ ưu tiên nào trên dữ liệu của mình.


Cảm ơn Ugo - đã đồng ý, chắc chắn cần có cả trận đấu và không trận đấu trong dữ liệu đào tạo. Câu hỏi là về việc cần bao nhiêu trận đấu (N-1) (N-1). Đối với phần (2), tôi chắc chắn sẽ lấy mẫu với trọng lượng bằng nhau trên tất cả các quan sát.
John Horton

Chà, nếu bạn không có apriori trên dữ liệu của mình thì không có cách nào hợp lý để lấy mẫu dữ liệu. Vì vậy, bạn phải lấy mẫu thống nhất, và trong trường hợp này, bạn càng lấy nhiều thì càng tốt. Tuy nhiên, bạn có thể ước tính lỗi được đưa ra bởi lấy mẫu, nhưng chúng tôi đang thiếu thông tin ở đây để giúp bạn về điểm này.
Ugo

Dường như với tôi rằng lỗi sẽ phụ thuộc vào loại phân loại được sử dụng. Dù sao, bạn luôn có thể cố gắng dự đoán ở các tỷ lệ mẫu khác nhau và khắc phục ngưỡng mà bạn cho rằng lỗi được đưa ra là thỏa đáng.
Ugo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.