Phân loại phân tầng với rừng ngẫu nhiên (hoặc phân loại khác)


12

Vì vậy, tôi đã có một ma trận có kích thước khoảng 60 x 1000. Tôi đang xem nó như 60 đối tượng với 1000 tính năng; 60 đối tượng được nhóm thành 3 lớp (a, b, c). 20 đối tượng trong mỗi lớp, và chúng tôi biết phân loại thực sự. Tôi muốn học có giám sát trên bộ 60 ví dụ đào tạo này và tôi quan tâm đến cả độ chính xác của phân loại (và các số liệu liên quan) cũng như lựa chọn tính năng trên 1000 tính năng.

Đầu tiên, danh pháp của tôi như thế nào?

Bây giờ câu hỏi thực sự:

Tôi có thể ném các khu rừng ngẫu nhiên vào nó như đã nêu, hoặc bất kỳ số lượng phân loại khác. Nhưng có một sự tinh tế - tôi thực sự chỉ quan tâm đến việc phân biệt lớp c với lớp a và b. Tôi có thể gộp các lớp a và b, nhưng có cách nào tốt để sử dụng kiến thức tiên nghiệm rằng tất cả các đối tượng không phải c có thể tạo thành hai cụm khác nhau không? Tôi thích sử dụng các khu rừng ngẫu nhiên hoặc một biến thể của chúng, vì nó được chứng minh là có hiệu quả trên dữ liệu tương tự như của tôi. Nhưng tôi có thể bị thuyết phục để thử một số phương pháp khác.


Tôi không thấy bất kỳ vấn đề với danh pháp của bạn. Đây có phải là 60 đối tượng bạn có? Sau đó, để tính toán độ chính xác của phân loại, bạn cần chia tập dữ liệu của mình thành các tập huấn luyện, kiểm tra (và cả xác thực). Có nhiều cách khác nhau để làm điều này nhưng tôi xác nhận chéo là phổ biến nhất, tôi nghĩ vậy. k
emrea

1
Có, chỉ 60. Nhưng tôi nghĩ đối với các khu rừng ngẫu nhiên, mỗi cây quyết định được tạo ra với một tập hợp con của các mẫu, do đó bạn có thể nhận được một lỗi tổng quát hóa ước tính bằng cách áp dụng từng mẫu trong số 60 mẫu hiện có cho chỉ những cây trong rừng. Không thấy mẫu đó trong khi xây dựng. ( stat.ber siêu.edu / ~breiman / RandomForests / cc_home.htmlm #ooberr ) Vì vậy, có thể không cần xác thực chéo điển hình ở đây.
dùng116293

bạn nên rất lo lắng về việc quá mức ở đây. Bạn có 1000 biến với 60 đối tượng, tôi sẽ cảm thấy tốt hơn rất nhiều nếu đó là qay khác và tôi vẫn sẽ nói, bạn nên lo lắng về việc quá mức. Có một cách hợp lý hoặc ngữ nghĩa để làm lại số lượng biến trước khi thực hiện phân tích?
JANK

Câu trả lời:


8

Có một cách tốt để sử dụng kiến ​​thức tiên nghiệm rằng tất cả các đối tượng không phải c có thể tạo thành hai cụm riêng biệt

Nếu bạn đang sử dụng một phương thức dựa trên cây, tôi không nghĩ nó quan trọng vì các phân loại này phân vùng không gian tính năng thì hãy xem tỷ lệ mẫu trong mỗi lớp. Vì vậy, tất cả những gì quan trọng là sự xuất hiện tương đối của lớp c trong mỗi nút thiết bị đầu cuối.

Tuy nhiên, nếu bạn đang sử dụng một cái gì đó như hỗn hợp các quy tắc, LDA, v.v. thì việc kết hợp hai cụm sẽ là một ý tưởng tồi (giả sử các lớp a và b tạo thành các cụm duy nhất). Ở đây bạn cần bảo tồn cấu trúc lớp để mô tả chính xác không gian tính năng ánh xạ tới a, b và c. Các mô hình này giả định các tính năng cho mỗi lớp có phân phối Bình thường khác nhau. Nếu bạn kết hợp a và b, bạn sẽ buộc một phân phối Bình thường duy nhất phù hợp với hỗn hợp.

Tóm lại, đối với cây, điều đó không quan trọng lắm nếu bạn:

I. Tạo ba phân loại (1. a vs b, 2. a vs c và 3. b vs c) sau đó dự đoán bằng phương pháp dựa trên biểu quyết.

II. Hợp nhất các lớp a và b để tạo thành bài toán hai lớp.

III. Dự đoán cả ba lớp sau đó ánh xạ dự đoán thành một giá trị hai lớp (ví dụ f (c) = c, f (a) = not c, f (b) = not c).

Tuy nhiên, nếu bạn sử dụng một phương thức phù hợp với phân phối cho mỗi lớp thì nên tránh II. và kiểm tra cái nào của I. hoặc III. làm việc tốt hơn cho vấn đề của bạn


III nghe có vẻ tốt - mặc dù tôi nghĩ rằng nếu bộ phân loại nói rằng một mẫu là .33 a, .33 b và .34 c, tôi có lẽ nên tính tổng xác suất cho a và b và do đó chọn 'không phải c'.
dùng116293

1
Đối với (I), đâu là một quy trình tốt để bỏ phiếu chia (1: a, 2: c, 3: b), hoặc điều đó có thể quá hiếm để thực sự quan trọng?
dùng116293

Cho III. những gì bạn đề nghị là chính xác. Đối với I. trên 3 dữ liệu lớp tôi không nghĩ có bất kỳ biện pháp nào để phân chia phiếu bầu (1 cho mỗi) vì tài sản bắc cầu sẽ phải bị vi phạm. Tuy nhiên, đối với 4+ lớp, bạn có thể hình dung có mối quan hệ ở trên cùng, trong trường hợp đó bạn có thể sử dụng một số lượng thay vì thắng / thua; tức là tổng các trọng số lấy hạng cân tối đa.
muratoa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.