Sử dụng ML để hỗ trợ ghi nhãn con người trong bộ dữ liệu với các lớp không cân bằng cao


7

Có vấn đề khoa học nào với việc sử dụng ML để hỗ trợ chú thích của con người không?

Tôi đã có một bộ dữ liệu 3 lớp không ghi nhãn trong đó chỉ có 1 trong 500 phần tử thuộc về 2 lớp quan tâm.

Các nhãn không thể nhận thấy một cách tầm thường đối với tất cả các yếu tố của dữ liệu không được ghi nhãn, tuy nhiên vì hầu hết các yếu tố của lớp đa số thể dễ dàng phát hiện bởi một NN đơn giản, nó có thể được sử dụng để lọc hầu hết các yếu tố của lớp đa số, đưa số lượng xuống khoảng 1 trên 100, và tăng hiệu quả của thời gian chú thích của con người lên gấp 50 lần. Các tập dữ liệu được dán nhãn sẽ được sử dụng để đào tạo, kiểm tra và xác nhận một lớp.

Tuy nhiên tôi có thể thấy trước những lý do tại sao điều này có thể gây ra một vấn đề cụ thể theo quan điểm học thuật:

  • Nếu dữ liệu chú thích không có tính đại diện do sai lệch trong ML được sử dụng trước chú thích của con người, bộ phân loại có thể đấu tranh để tổng quát hóa
  • Việc sử dụng trình dọn dẹp dữ liệu ML, không dựa trên các quy tắc chính đáng được cung cấp bởi con người, đặt một hộp đen ở đầu của quá trình phân tích dữ liệu
  • Chỉ chú thích một tỷ lệ nhỏ của lớp phổ biến cao làm cho bộ dữ liệu trở nên rất chọn lọc, điều này sẽ mời những lời chỉ trích về việc sử dụng sai lệch sai lệch này (tức là thao túng cho một giả thuyết mong muốn)

Tất cả những suy nghĩ đánh giá cao

Câu trả lời:


1

Tôi nghĩ chìa khóa là ghi nhớ những gì bạn thực sự theo đuổi. Đây có phải là một cuộc thi kaggle? Sau đó chắc chắn, cách tiếp cận của bạn nghe tốt.

Nếu đây là cho một bài báo học thuật, hoặc công việc y tế sẽ được đưa vào lĩnh vực này, và bạn muốn một cái gì đó sẽ khái quát tốt và vượt qua đánh giá ngang hàng, thì tôi không nghĩ rằng đây là một cách tiếp cận tốt. Bởi vì bạn không thể bỏ qua một số mẫu của bạn.

Bên cạnh 'tính hợp lệ' hoặc 'tính đúng đắn' của phương pháp này, nó cũng có thể không giúp ích nhiều như bạn nghĩ. Một phần của vấn đề là trình phân loại trước mà bạn đang đề xuất. Có chính xác 100% không? Làm thế nào để bạn biết, nếu nó loại bỏ quá nhiều để thực sự nhìn qua. Vấn đề là nếu nó không chính xác 100,0%, thì bạn sẽ mất các ví dụ đào tạo có giá trị nhất của mình bằng cách loại bỏ chúng, bởi vì chúng là những thứ đang đánh lừa thuật toán hiện tại.

Nếu bạn sẽ sử dụng vĩnh viễn trình phân loại trước này, thì đó là bước hợp lệ và đây chỉ là một phần của toàn bộ 'hộp đen' của bạn. Nhưng sau đó, bạn cần báo cáo chính xác các phủ định sai mà nó loại bỏ như một phần của đánh giá tổng thể của bạn (và tốt nhất là chức năng mất tổng thể của bạn để bạn có thể tối ưu hóa chính xác)


Một mẫu đại diện của dữ liệu gốc có thể xác nhận các mẫu không đại diện được lựa chọn bởi trình phân loại trước có thể giúp được không? Sẽ có khoảng 10 triệu điểm dữ liệu, nếu 10K ngẫu nhiên được chú thích, chúng có thể được sử dụng để xác thực 10K được chọn bởi trình phân loại trước được chú thích bởi con người
Aidan Connelly

Tôi đang gặp khó khăn theo mô tả của bạn. Bạn đang nói "mẫu đại diện" và "chú thích 10k ngẫu nhiên", nghe có vẻ như là một bước đi đúng hướng. Nhưng sau đó bạn nói 10k được chọn bởi người phân loại trước. Một lần nữa, điều đó tốt để giúp xác định vị trí của các ví dụ dễ tìm hơn của bạn, nhưng tôi không thấy 10k đầu tiên (sẽ có ~ 20 trong số các lớp hiếm) sau đó sẽ 'xác thực' 10k được chọn.
Jeff Ellen

0

Nếu có một mô hình có thể gắn nhãn dữ liệu của bạn cho bạn, thì tại sao thậm chí đào tạo một dữ liệu?

Tôi sẽ nói rằng sử dụng một mô hình khác để gắn nhãn dữ liệu cho một mô hình là xấu. Đầu tiên, nếu một mô hình tốt hơn tồn tại có thể gắn nhãn một tập dữ liệu tại sao không chỉ sử dụng mô hình tốt đó để thay thế. Thứ hai, nếu các lớp không cân bằng cao, đó là lý do nhiều hơn mà bạn muốn nhãn chính xác để mô hình của bạn có thể làm điều đó tốt nhất. Nếu không, bạn chỉ nhầm lẫn nó, tại sao bạn sẽ làm điều đó?

Ghi nhãn dữ liệu là khó khăn đối với con người, nhưng đó là lý do tại sao chúng tôi đang cố gắng làm cho máy móc đủ tốt để một lúc nào đó chúng tôi có thể ngừng làm điều đó.

Nếu bạn muốn một cách dễ dàng hơn, bạn bắt đầu bằng cách chỉ gắn nhãn lớp thiểu số, sau đó gắn nhãn một số lượng bằng nhau của các lớp khác và đào tạo bằng cách đó, sao cho tập dữ liệu của bạn không còn mất cân bằng. Ví dụ: u có 100 mẫu 10, 40, 50 là số lượng mẫu trong mỗi lớp. Vì vậy, bạn sẽ bắt đầu bằng cách dán nhãn 10, mẫu 10 từ 40 và sau đó là 50 và dán nhãn cho chúng; sau đó huấn luyện một mô hình trên bộ dữ liệu gồm 30 mẫu không thiên vị. Phương pháp này có ưu và nhược điểm nhưng tôi sẽ dừng ở đây vì đó không phải là câu hỏi ban đầu của bạn.


Cảm ơn rất nhiều vì sự hồi âm của bạn! Tuy nhiên, câu hỏi không đề cập đến việc sử dụng ML để gắn nhãn dữ liệu, thay vào đó để hỗ trợ người dùng ghi nhãn dữ liệu, thông qua học tập tích cực ( en.m.wikipedia.org/wiki/Active_learning_(machine_learning) )
Aidan Connelly

Đúng vậy, ngay cả trong học tập tích cực, tôi sẽ đề nghị dán nhãn cho các nhóm thiểu số và một phần của chính họ, và sau đó rời khỏi phần còn lại của các chuyên ngành. Nhưng sau đó hãy chắc chắn chọn một ngưỡng có ý nghĩa cho mục đích của bạn, tức là chỉ hỏi tôi nếu bạn tự tin dưới 90%, nhưng nó phụ thuộc nhiều vào trường hợp sử dụng. Bạn cũng có thể muốn xem xét chi phí xây dựng khung học tập tích cực so với việc tự dán nhãn 500; đó là thời gian và kinh nghiệm học được
plumSemPy

Trong học tập tích cực, con người là một phần của thuật toán, vì việc dán nhãn rất tốn kém. Đó là thiết lập ở đây, nhưng bằng cách loại bỏ các ví dụ và không xem xét có bao nhiêu trong số hai lớp thiểu số bị loại bỏ bởi trình phân loại trước đầu tiên có nghĩa là nó không còn học tập tích cực. Học tập tích cực sẽ giữ tất cả những người xung quanh và báo cáo về họ trong các số liệu cuối cùng.
Jeff Ellen

0

Đúng là thường có nhiều dữ liệu dẫn đến các quyết định tốt hơn. Trong trường hợp của bạn, những gì bạn đang cố gắng làm là đẩy nhanh quá trình ghi nhãn và cách bạn đề xuất để làm điều đó là hợp lệ. Vì câu hỏi là những ví dụ nào người ta nên gắn nhãn thủ công và đúng là sử dụng một hệ thống để loại bỏ các ví dụ "không thú vị" với độ tin cậy cao có ý nghĩa. Đó không phải là bỏ qua các ví dụ, mà là ưu tiên cho một số trong số chúng không tầm thường.

Có một bộ phân loại khái quát tốt cho phân phối thực sự của dữ liệu đào tạo là một chủ đề khác. Bạn có thể đảm bảo điều này bằng cách đánh giá bộ phân loại trong tập hợp phân chia theo cách phân tầng. Vì việc lấy mẫu từ một trong các lớp là rẻ hơn, bạn có thể cân bằng tập huấn luyện ở bước sau (bằng cách lấy mẫu trên / dưới), sau khi đã dán nhãn dữ liệu.


1
Tôi không đồng ý. Bạn cần ghi nhớ mục tiêu cuối cùng, không phải mục tiêu trung gian. Là mục tiêu cuối cùng để có được nhiều dữ liệu hơn và hy vọng rằng nó dẫn đến quyết định tốt hơn? Hoặc là mục tiêu cuối cùng để có một bộ phân loại khái quát tốt? Nếu câu trả lời là một phân loại khái quát tốt, thì cần phải chăm sóc nhiều hơn.
Jeff Ellen

Hai điểm: trong các câu hỏi nội tuyến của bạn, các quyết định tốt hơn bằng với một phân loại tổng quát hóa tốt. Ngoài ra, các câu hỏi là những ví dụ nào người ta nên gắn nhãn thủ công và đúng là việc sử dụng một hệ thống để loại bỏ các ví dụ "không thú vị" với độ tin cậy cao có ý nghĩa. Đây không phải là về việc bỏ qua các ví dụ, mà là về các ví dụ nên được gắn nhãn thủ công ưu tiên.
geompalik
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.