Khi nào chúng ta nói rằng tập dữ liệu không được phân loại?


11

Tôi đã nhiều lần phân tích một bộ dữ liệu mà tôi thực sự không thể thực hiện bất kỳ loại phân loại nào. Để xem liệu tôi có thể có được một trình phân loại hay không, tôi thường sử dụng các bước sau:

  1. Tạo các ô hộp của nhãn so với các giá trị số.
  2. Giảm kích thước xuống 2 hoặc 3 để xem các lớp có thể tách rời hay không, đôi khi cũng đã thử LDA.
  3. Cố gắng hết sức để phù hợp với các SVM và Rừng ngẫu nhiên và xem xét mức độ quan trọng của tính năng để xem các tính năng có ý nghĩa gì hay không.
  4. Cố gắng thay đổi sự cân bằng của các lớp và kỹ thuật như lấy mẫu dưới mức và lấy mẫu quá mức để kiểm tra xem sự mất cân bằng của lớp có thể là một vấn đề hay không.

Có nhiều cách tiếp cận khác tôi có thể nghĩ ra, nhưng chưa thử. Đôi khi tôi biết rằng các tính năng này không tốt và hoàn toàn không liên quan đến nhãn mà chúng tôi đang cố gắng dự đoán. Sau đó tôi sử dụng trực giác kinh doanh đó để kết thúc bài tập, kết luận rằng chúng ta cần các tính năng tốt hơn hoặc các nhãn hoàn toàn khác nhau.

Câu hỏi của tôi là làm thế nào để một Nhà khoa học dữ liệu báo cáo rằng việc phân loại không thể được thực hiện với các tính năng này. Có cách thống kê nào để báo cáo điều này hoặc điều chỉnh dữ liệu trong các thuật toán khác nhau trước tiên và xem số liệu xác nhận là lựa chọn tốt nhất?


Tôi cảm thấy nếu câu hỏi này có câu trả lời rõ ràng và khách quan, thì tất cả những nỗ lực khoa học đều trở nên vô nghĩa. Khoa học là nghệ thuật.
Mephy

Haha đúng rồi Tôi chỉ quan tâm để biết thêm phương pháp để tìm sự tách biệt. Giống như làm thế nào để thống kê cho khách hàng thấy rằng dành nhiều thời gian hơn cho một số bài tập có thể là vô ích.
vc_dim

1
Tôi đề nghị bỏ hai đoạn cuối, vì chúng làm cho câu hỏi quá mở / rộng. Phần đầu tiên - làm thế nào để xử lý và báo cáo một kết quả không chuyên nghiệp - nên có thể trả lời được, và cá nhân tôi nghĩ rằng chúng ta cần nhiều hơn về loại câu hỏi nghi thức chuyên môn Khoa học dữ liệu này trên trang web.
Neil Slater

Làm cho Neil cảm thấy. Chỉnh sửa nó để được sắc nét.
vc_dim

Câu trả lời:


4

Nó phụ thuộc vào dữ liệu của bạn. Có một cái gì đó gọi là lỗi cấp độ con người. Giả sử các tác vụ như đọc sách in, con người không đấu tranh để đọc và nó có thể không xảy ra lỗi, trừ khi chất lượng in kém. Trong các trường hợp như đọc các bản thảo viết tay, có thể xảy ra rất nhiều việc không hiểu tất cả các từ nếu phông chữ của nhà văn là lạ đối với người đọc. Trong tình huống đầu tiên, lỗi cấp độ con người quá thấp và các thuật toán học tập có thể có cùng hiệu suất nhưng ví dụ thứ hai minh họa thực tế là trong một số tình huống, lỗi cấp độ con người rất cao và theo cách thông thường (nếu bạn sử dụng tương tự tính năng như con người) thuật toán học tập của bạn sẽ có rất nhiều tỷ lệ lỗi.

Trong học thống kê, có một cái gì đó được gọi là Bayes Error, bất cứ khi nào phân phối các lớp trùng nhau, tỷ lệ lỗi là lớn. không thay đổi các tính năng, lỗi Bayes của các bản phân phối hiện tại là hiệu suất tốt nhất và hoàn toàn không thể giảm.

Tôi cũng đề nghị bạn đọc ở đây . Các sự cố với số lượng lớn lỗi Bayes với các tính năng được chỉ định được coi là không thể phân loại được trong không gian của các tính năng đó. Một ví dụ khác, bạn có thể cho rằng bạn muốn phân loại xe ô tô có bật đèn. Nếu bạn cố gắng làm điều đó vào buổi sáng, bản thân bạn có thể có rất nhiều lỗi và nếu bạn sử dụng cùng một hình ảnh để đào tạo thuật toán học tập, điều đó cũng có thể có.

Ngoài ra tôi khuyên bạn không nên thay đổi việc phân phối các lớp học của bạn. Trong những trường hợp như vậy, kết quả của phân loại gần ranh giới sẽ hoàn toàn ngẫu nhiên. Việc phân phối dữ liệu để đào tạo thuật toán học máy của bạn không nên thay đổi và nên như trong điều kiện thực tế.


Điều này rất hữu ích, tôi không biết về Lỗi Bayes. Tôi đã tìm thấy khó khăn trong việc cải thiện tính chính xác sau khi thay đổi phân phối các lớp. Tôi đồng ý nó không phải là một ý tưởng tuyệt vời. Tuy nhiên, đôi khi tôi đã cố gắng thay đổi hệ thống phân cấp lớp với hy vọng tính năng đó có thể đại diện cho các lớp trừu tượng hoặc chi tiết hơn (EG. Thay đổi khỉ, chó và khác sang Động vật có vú). Tôi nghĩ rằng nếu có lỗi Bayes, việc thay đổi hệ thống phân cấp lớp cũng không giúp được gì.
vc_dim

@SumitSinghChauhan Trên thực tế trong các tình huống lỗi Bayes lớn, cố gắng thực hiện tính năng kỹ thuật là giải pháp tốt nhất. Bởi vì học sâu tìm thấy các tính năng chính nó, không thể được sử dụng trong trường hợp bộ dữ liệu không lớn.
Truyền thông

5

Lấy một phần tử mẫu từ một lớp và một phần tử mẫu từ lớp khác. Liệu hai yếu tố này có thể có cùng một vectơ tính năng chính xác không? Nếu có thể từng xảy ra sau đó hai lớp không hoàn toàn seperable sử dụng vectơ tính năng hiện tại của bạn (kể từ khi quyết định phân loại được dựa hoàn toàn vào các vector đặc trưng cho một nguyên tố).

Mặt khác, nếu * mỗi "phần tử trong một lớp có một phần tử tương ứng trong lớp khác sao cho hai phần tử có cùng vectơ đặc trưng, ​​thì hai lớp không thể phân biệt được bằng các vectơ đặc trưng hiện tại của bạn.

Hơn nữa, nếu điều kiện đó chỉ đúng với một số yếu tố của bạn chứ không phải các yếu tố khác, thì bạn đang ở đâu đó ở giữa và bạn có thể sử dụng nó làm cơ sở để đo lường mức độ bạn có thể hy vọng trình phân loại thực hiện bằng cách sử dụng bộ tính năng hiện tại của mình.

Tất cả các đánh giá này có thể được sử dụng để tranh luận ở các mức độ khác nhau mà bạn cần để trích xuất nhiều tính năng hơn.


1
Cảm ơn Robert. Điều này là quen thuộc và có vẻ đúng. Tôi đã thực hiện phân tích tương tự cho một số dự án. Tôi đã có một bộ dữ liệu với cùng một vectơ tính năng được gắn thẻ khác nhau và sử dụng nó làm cơ sở cho mức độ chính xác của tôi. Một số lần âm mưu hộp giúp quá. Cho đến nay tôi đã tìm thấy cách tiếp cận bạn vừa đề cập tốt nhất để thuyết phục khách hàng.
vc_dim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.