Phân loại nào chính xác hơn cho phân loại SVM?

10

Tôi đang học phân loại SVM và gặp phải một vấn đề. Tôi không chắc liệu vấn đề nan giải này có một thuật ngữ cho nó.

Giả sử chúng tôi muốn phân loại bệnh nhân bằng SVM dựa trên mẫu người khỏe mạnh (cả hai giới) và người bị ung thư gan (cả hai giới). Nếu chúng tôi dán nhãn những người khỏe mạnh là mẫu 1 và những người mắc bệnh ung thư là loại 2, chúng tôi có thể đào tạo một SVM nhị phân và lấy phân loại 1 để dự đoán bất kỳ bệnh nhân mới nào. Bây giờ, hình ảnh một kịch bản khác. Giả sử rằng trước tiên chúng ta chia tất cả các mẫu theo giới tính trước khi phân loại SVM. Đối với mỗi giới tính, chúng tôi vẫn dán nhãn bệnh nhân khỏe mạnh so với bệnh nhân ung thư thành 2 lớp và huấn luyện một SVM nhị phân để có được phân loại 2 và phân loại 3 tương ứng cho các mẫu nữ và nam. Câu hỏi đặt ra là nếu có một bệnh nhân nữ mới, nên sử dụng phân loại nào, 1 hoặc 2, để có được dự đoán chính xác hơn? Đây là vấn đề nan giải cho các lập luận tôi có

(1) Khi số lượng mẫu lớn, dự đoán sẽ chính xác hơn. Dựa trên lập luận này, bộ phân loại 1 có vẻ là một lựa chọn tốt.

(2) Tuy nhiên, nếu chúng ta chia mẫu thành các nhóm nữ và nam trước, phân loại 2 có vẻ là lựa chọn tốt hơn vì bệnh nhân mới (mẫu thử chưa biết) là nữ.

Liệu loại vấn đề nan giải này có một thuật ngữ hoặc có ai biết thêm thông tin hoặc làm thế nào để giải quyết vấn đề như thế này? Tôi thậm chí không chắc chắn nếu đây là một câu hỏi hợp pháp và xin lỗi cho câu hỏi ngây thơ trước. Cảm ơn

machine-learning

— Cassie
nguồn

4

Điều này không thể được trả lời nói chung. Có lẽ nếu chúng ta biết có bao nhiêu giới ảnh hưởng đến bệnh ung thư và bạn có bao nhiêu mẫu, bạn sử dụng chức năng mất nào, v.v. Có lẽ dễ dàng hơn nhiều để thử nghiệm sử dụng xác nhận chéo.

— adrianN

Cảm ơn. Nó có ý nghĩa. Tôi đoán không nên có một quy tắc chung.

— Cassie

điều này nghe có vẻ giống như một câu hỏi ML chung về "tôi nên sử dụng ML như thế nào để giải quyết vấn đề này". không có câu trả lời chuẩn. nó quan trọng / được chấp nhận / tiêu chuẩn để thử các cách tiếp cận khác nhau và xem chiến lược nào dẫn đến kết quả dự đoán chính xác nhất. tiêu đề chung là một cái gì đó như "đại diện cho vấn đề thế giới thực trong khung ML trừu tượng" hoặc đại khái là "mô hình hóa" và được bao phủ trong các giới thiệu tiêu chuẩn tốt .... xem thêm thống kê.se

— vzn

2

Bạn nên xem qua lựa chọn tính năng và các thuật toán tự động hóa quá trình này. Không sao nếu bạn chưa quen với ML và không hiểu toàn bộ quy trình lựa chọn tính năng, chỉ cần có trực giác phù hợp và sau đó bạn có thể sử dụng thư viện để tự động hóa quy trình.

Ý tưởng chính của việc có một thuật toán học là để nó có thể tìm ra các mẫu ... điều bạn có thể làm nhất là giúp anh ta bằng cách cung cấp nhiều dữ liệu (không dự phòng) và có một bước tiền xử lý tốt, thường liên quan đến công cụ như lựa chọn tính năng, và chuẩn hóa .

Nói một cách thân thiện, khi thực hiện các thuật toán học tập, bạn không nên cố gắng sửa đổi tập dữ liệu của mình chỉ bằng cách 'nhìn' nó, trừ khi bạn có các số liệu cụ thể chứng minh rằng nó cần sửa đổi, nhiều lần, đó là trường hợp học thuật toán đặt sự thiên vị cao đối với các tính năng thậm chí không liên quan đến từ xa 'liên quan' đến quá trình phân loại. Luôn cố gắng thực hiện bước chọn tính năng trước khi thử bất kỳ sửa đổi nào trên dữ liệu của bạn.

— Subhaya
nguồn

1

Một tiêu đề chung cho loại bước này của quy trình học máy là tiền xử lý dữ liệu mà wikipedia nói bao gồm "làm sạch, chuẩn hóa, chuyển đổi, trích xuất và lựa chọn tính năng, v.v.".

một khía cạnh khác của học máy là "tạo ra mô hình". điều này liên quan đến các quyết định, ví dụ về việc sẽ phát hiện bao nhiêu lớp, "kích thước" hoặc "kích thước" của cấu trúc ML sẽ là gì (ví dụ: "SVM sẽ bao gồm bao nhiêu hạt nhân", v.v., tương tự như sự lựa chọn số lượng tế bào thần kinh trong NN mô hình). Thật không may, một số ref có xu hướng bỏ qua hoặc "phủ bóng" bước này. nhưng lưu ý phổ biến của nó với số liệu thống kê và một số sách thống kê sẽ có một mô tả tốt.

trong các cách tiếp cận kiểu ML, thông thường có một quá trình lặp lại / phản hồi / tiến hóa mạnh mẽ để xác định cả quá trình tiền xử lý và mô hình hóa hiệu quả. người thử nghiệm thử các ý tưởng tiền xử lý và mô hình hóa khác nhau và di chuyển theo hướng của những người thành công hơn. nguyên tắc chung là "dự đoán càng tốt, thì càng có nhiều chính xác [và có lẽ cũng thực tế ] tiền xử lý và mô hình hóa", nhưng cũng cho rằng việc loại bỏ quá mức được loại trừ cẩn thận.

— vzn
nguồn