Tối ưu hóa cho các đường cong Chính xác-Thu hồi dưới sự mất cân bằng của lớp


30

Tôi có một nhiệm vụ phân loại trong đó tôi có một số dự đoán (một trong số đó là thông tin nhiều nhất) và tôi đang sử dụng mô hình MARS để xây dựng trình phân loại của mình (tôi quan tâm đến bất kỳ mô hình đơn giản nào và sử dụng glms cho mục đích minh họa tốt thôi). Bây giờ tôi có sự mất cân bằng lớp lớn trong dữ liệu đào tạo (khoảng 2700 mẫu âm tính cho mỗi mẫu dương tính). Tương tự như các nhiệm vụ Truy xuất thông tin, tôi quan tâm nhiều hơn đến việc dự đoán các mẫu thử nghiệm dương tính xếp hạng hàng đầu. Vì lý do này, hiệu suất trên các đường cong Precision Recall rất quan trọng đối với tôi.

Trước hết, tôi chỉ đơn giản là đào tạo mô hình về dữ liệu đào tạo của mình để giữ sự mất cân bằng của lớp học. Tôi hình dung mô hình được đào tạo của tôi bằng màu đỏ và đầu vào quan trọng nhất màu xanh lam.

Đào tạo về dữ liệu không cân bằng, đánh giá về dữ liệu không cân bằng :

PR cho đào tạo không cân bằng ROC cho đào tạo không cân bằng

Nghĩ rằng sự mất cân bằng trong lớp đang làm mất đi mô hình, vì việc học các mẫu dương tính xếp hạng hàng đầu là một phần rất nhỏ trong toàn bộ tập dữ liệu, tôi đã ghép các điểm đào tạo tích cực để có được một tập dữ liệu huấn luyện cân bằng. Khi tôi vẽ hiệu suất trên tập huấn luyện cân bằng , tôi có được hiệu suất tốt. Trong cả hai đường cong PR và ROC, mô hình được đào tạo của tôi làm tốt hơn các đầu vào.

Đào tạo về dữ liệu cân bằng (upampling), đánh giá cũng về dữ liệu cân bằng (upampling):

PR cho đào tạo cân bằng, trực quan trên tập dữ liệu cân bằng ROC cho đào tạo cân bằng, trực quan hóa trên tập dữ liệu cân bằng

Tuy nhiên, nếu tôi sử dụng mô hình này được đào tạo trên dữ liệu cân bằng, để dự đoán về tập huấn luyện ban đầu, không cân bằng, tôi vẫn nhận được hiệu suất kém trên đường cong PR.

Đào tạo về (lấy mẫu) dữ liệu cân bằng, đánh giá về dữ liệu không cân bằng gốc:

PR cho đào tạo cân bằng, trực quan trên dữ liệu gốc, không cân bằng ROC cho đào tạo cân bằng, trực quan hóa trên dữ liệu gốc, không cân bằng

Vì vậy, câu hỏi của tôi là:

  1. Là lý do trực quan hóa đường cong PR cho thấy hiệu suất kém hơn của mô hình được đào tạo của tôi (màu đỏ), trong khi đường cong ROC cho thấy sự cải thiện vì sự mất cân bằng của lớp?
  2. Các cách tiếp cận lấy mẫu / lấy mẫu lên / xuống mẫu có thể giải quyết điều này để buộc đào tạo tập trung vào vùng thu hồi thấp / độ chính xác cao?
  3. Có cách nào khác để tập trung đào tạo vào khu vực thu hồi chính xác cao / thấp không?

Bạn có thể chỉnh sửa câu hỏi của mình để làm rõ những biện pháp nào được tính toán trên tập huấn luyện và những biện pháp nào được đưa ra không?
Jack Tanner

@JackTanner, mọi thứ đều được tính trên tập huấn luyện bây giờ. Vì mô hình không có nhiều tham số và số lượng mẫu trong tập huấn luyện là rất lớn nên tôi không quá lo lắng về việc quá mức. Bên cạnh đó, tôi muốn chắc chắn rằng tôi đang đạt được hiệu suất tốt trong tập huấn luyện trước khi tôi có thể mong đợi trong tập kiểm tra.
highBandWidth

Bạn đang điều khiển nút nào trong thuật toán học tập của mình để đánh giá độ chính xác ở các mức thu hồi khác nhau? Bạn đã thử mở rộng bộ tính năng của mình, ví dụ: với các kết hợp và biến đổi tính năng?
Jack Tanner

@JackTanner, Mô hình mà tôi có (MARS với chức năng logit) cho kết quả đầu ra trong phạm vi từ 0 đến 1, tương tự như hồi quy logistic. Về cơ bản là giống nhau, nhưng bao gồm một vài tính năng khác. Để có được độ chính xác ở các lần thu hồi khác nhau, tôi chỉ cần đặt ngưỡng ở các điểm khác nhau. Tôi chỉ sử dụng cách tiêu chuẩn để tính PR hoặc ROC từ danh sách được xếp hạng.
highBandWidth

Câu trả lời:


15
  1. Đường cong ROC không nhạy cảm với những thay đổi trong mất cân bằng lớp; xem Fawcett (2004) "Đồ thị ROC: Ghi chú và cân nhắc thực tế cho các nhà nghiên cứu".
  2. Lấy mẫu lên lớp tần số thấp là một cách tiếp cận hợp lý.
  3. Có nhiều cách khác để đối phó với sự mất cân bằng giai cấp. Tăng cường và đóng bao là hai kỹ thuật xuất hiện trong tâm trí. Đây có vẻ như là một nghiên cứu gần đây có liên quan: So sánh các kỹ thuật tăng cường và đóng bao với dữ liệu ồn ào và mất cân bằng

Vấn đề gọn gàng PS; Tôi muốn biết làm thế nào nó bật ra.



1

Tôi muốn thu hút sự chú ý đến thực tế, rằng 2 thử nghiệm cuối cùng trên thực tế đang sử dụng mô hình SAME trên bộ dữ liệu ALMOST THE SAME. Sự khác biệt về hiệu suất không phải là sự khác biệt về mô hình, nó được giải thích bằng các phân phối khác nhau của bộ dữ liệu xác nhận và các thuộc tính của METRICS cụ thể được sử dụng - độ chính xác và thu hồi, phụ thuộc nhiều vào phân phối đó. Để giải thích rõ hơn điểm này một chút, nếu bạn lấy X mục nhập riêng biệt từ tập dữ liệu xác thực ban đầu của mình và sao chép lớp thiểu số cho tập dữ liệu được nâng cấp, mô hình của bạn sẽ đưa ra dự đoán tương tự cho các mục X đó, đúng hoặc không chính xác, cả được nâng cấp và không cân bằng bộ dữ liệu xác nhận. Sự khác biệt duy nhất là đối với mỗi dương tính giả sẽ có ít dương tính đúng trong tập dữ liệu ban đầu (do đó độ chính xác thấp hơn) và dương tính đúng hơn trong tập dữ liệu cân bằng (đơn giản là do có nhiều ví dụ tích cực hơn trong tập dữ liệu nói chung) . Đây là lý do tại sao Precision và Recall được cho là nhạy cảm với độ lệch. Mặt khác, như các thí nghiệm của bạn cũng minh họa, ROC không thay đổi. Điều này có thể được quan sát bằng cách nhìn vào định nghĩa của nó là tốt. Đó là lý do tại sao ROC được cho là không nhạy cảm với độ lệch.

Tôi chưa có câu trả lời tốt cho điểm 2 và 3 vì bản thân tôi đang tìm kiếm những điều đó :)


0

Giả sử các mẫu dương tính được ghép lại có "phân phối giống nhau" như trong "bộ gốc". Khi số lượng mẫu dương tính tăng lên, một vài thay đổi xảy ra

1) số lượng TruePositives (TP) tăng cho "tất cả các ngưỡng" và do đó, tỷ lệ TP / (TP + FP) và TP / (TP + FN) tăng cho tất cả các ngưỡng. Vì vậy, diện tích theo PRC ngày càng tăng.

2) độ chính xác dự kiến, còn được gọi là độ chính xác của mô hình "câm", tăng từ ~ 1/200 (trong bộ gốc) lên ~ 1/2 (trong trường hợp cân bằng "lý tưởng"). Giả sử mô hình của bạn hoạt động tốt hơn thì mô hình "câm" có nghĩa là khu vực dưới đường cong sẽ có nhiều hơn 0,00037 trong "bộ gốc" và hơn 0,5 trong bộ cân bằng lý tưởng.

3) trong khi đào tạo mô hình về tập dữ liệu nâng cao, một số mô hình có thể "vượt quá" các mẫu dương tính.

Liên quan đến các đường cong ROC, các đường cong ROC được biết là cho thấy rất ít ảnh hưởng từ các biến thể phân phối lớp (việc nâng cấp có ảnh hưởng rất nhỏ đến FPR, trong khi bạn có thể thấy một số hiệu ứng trên TPR).

Liên quan đến việc tập trung vào khu vực có độ chính xác cao / thu hồi thấp, bạn có thể tối ưu hóa liên quan đến chức năng chi phí trong đó Tích cực sai bị phạt nhiều hơn sau đó là Sai âm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.