Liệu tiền phát triển có giúp xây dựng một mô hình dự đoán tốt hơn không?


9

Đối với nhiệm vụ mô hình khuấy đảo, tôi đã xem xét:

  1. Tính toán cụm k cho dữ liệu
  2. Xây dựng mô hình k cho từng cụm riêng lẻ.

Lý do cho điều đó là, không có gì để chứng minh, rằng dân số của những người cho vay là đồng nhất, vì vậy thật hợp lý khi cho rằng quá trình tạo dữ liệu có thể khác nhau đối với các "nhóm" khác nhau

Câu hỏi của tôi là, nó là một phương pháp thích hợp? Nó có vi phạm bất cứ điều gì, hoặc nó được coi là xấu vì một số lý do? Nếu vậy, tại sao?

Nếu không, bạn sẽ chia sẻ một số thực tiễn tốt nhất về vấn đề đó? Và điều thứ hai - nói chung là tốt hơn hay tệ hơn khi làm tiền phát triển so với cây mô hình (Như được định nghĩa trong Witten, Frank - cây phân loại / hồi quy với các mô hình ở các lá. Theo trực giác, có vẻ như giai đoạn cây quyết định chỉ là một hình thức phân cụm khác, nhưng idk nếu nó có bất kỳ lợi thế nào so với phân cụm "bình thường".).

Câu trả lời:


3

Có một phương pháp gọi là hồi quy clusterwise giải quyết vấn đề tương tự (dữ liệu cụm đầu tiên và sau đó đưa ra các mô hình dự đoán). Xem ví dụ này.


1
Tôi đã tìm nó ở đây: tandfonline.com/doi/abs/10.1080/00273170701836653 và tìm thấy sau đây trong bản tóm tắt: "một số trường hợp, hầu hết các biến thể trong biến trả lời được giải thích bằng cách phân cụm các đối tượng, với ít lợi ích bổ sung được cung cấp bởi Theo mô hình hồi quy trong cụm. Theo đó, có tiềm năng to lớn đối với việc cung cấp quá mức với hồi quy theo cụm ". Không thực sự có vẻ hứa hẹn.
Ziel

Ok, nhưng họ không nói rằng nó luôn luôn thất bại. Tôi chưa bao giờ sử dụng phương pháp đó, tôi chỉ biết rằng nó có thể là sự kết hợp giữa phương pháp được giám sát và không giám sát nhưng có một số ít giấy tờ sử dụng phương pháp này.
Miroslav Sabo

Ngoài ra, hầu hết các ứng dụng mà tôi tìm thấy là về tiếp thị và tài chính nên có lẽ nó phù hợp đặc biệt với loại dữ liệu này.
Miroslav Sabo

1
Nó có vẻ rất trực quan cho lĩnh vực tiếp thị - churn, cross / upell.
Ziel

2

Hai điểm quá dài để bình luận:

  • các cụm thuần túy (nghĩa là chỉ chứa các trường hợp của một lớp) không có vấn đề gì cả: vì vậy được gọi là phân loại một lớp mô hình mỗi lớp độc lập với tất cả các lớp khác. Họ hoàn toàn có thể đối phó với điều này.

  • Tuy nhiên, nếu các cụm dữ liệu theo cách các lớp khá tách biệt, nghĩa là các cụm khá thuần túy, điều này có nghĩa là một cấu trúc rất mạnh tồn tại, một cấu trúc mà phân tích cụm có thể tìm thấy mà không cần hướng dẫn bởi các nhãn lớp. Điều này có nghĩa là một số loại phân loại nhất định như các phương pháp lân cận gần nhất dựa trên cùng một thước đo khoảng cách được sử dụng trong phân tích cụm là phù hợp với dữ liệu.

  • Khả năng khác, các tình huống trong đó các cụm không thuần túy, nhưng sự kết hợp của các phương pháp phân cụm và phân loại có thể làm tốt là thích hợp cho cây. Cây sẽ thực hiện một phần của phân cụm (và các nút thuần không được coi là một vấn đề.) Đây là một ví dụ nhân tạo, phiên bản 2 cụm của vấn đề XOR:
    Cụm XOR

  • một cách khác để bao gồm thông tin cụm mà không gặp rủi ro khi có các cụm thuần sẽ là sử dụng phân cụm như một bước tạo tính năng: thêm kết quả của phân tích cụm khi thay đổi mới vào ma trận dữ liệu.

  • Bạn hỏi liệu điều đó có tệ không vì một lý do nào đó: một điều đáng tiếc là ứng dụng này dẫn đến các mô hình có nhiều mức độ tự do. Bạn sẽ phải đặc biệt cẩn thận để không quá sức.

  • Có một cái nhìn về cây dựa trên mô hình, ví dụ câu trả lời của mbq ở đây tôi nghĩ rằng họ thực hiện một khái niệm rất gần với những gì bạn tìm kiếm. Chúng cũng có thể được thực hiện như rừng: ví dụ gói R mobForest .


1

Tôi đang đối phó với vấn đề tương tự những ngày này. Tôi có hàng trăm tính năng để xây dựng phân loại. Sau khi thử các mô hình khác nhau (ví dụ: rừng ngẫu nhiên, tăng độ dốc, v.v ...), tôi vẫn có độ chính xác / thu hồi thấp. Vì vậy, tôi đang cố gắng thực hiện một số phân cụm sau đó xây dựng các phân loại trong các nhóm khác nhau. Mối quan tâm của tôi là, giống như Anony-Mousse nói, làm thế nào tôi có thể thu được nhiều thông tin hơn từ trình phân loại nếu tôi sử dụng tất cả thông tin trong phân cụm? Vì vậy, đây là những gì tôi sẽ làm tiếp theo:

  1. Sử dụng một số tính năng (ít hơn, theo kiến ​​thức trước) để thực hiện phân cụm.
  2. Sử dụng các tính năng khác (thêm) để đào tạo phân loại.

Tôi nghĩ nó cũng có thể giúp giảm bớt sự phức tạp, mong muốn nó giúp.


1

kk

NN/kYiN(μi,σi2)i=1πi=21πμ1 μ2σ12σ22μiβiXiβi

Ngoài ra, trong cài đặt phân biệt đối xử, người ta có thể thử kết hợp các phép gán cụm (cứng hoặc mềm) như một tính năng để đào tạo thuật toán phân loại lựa chọn (ví dụ: NB, ANN, SVM, RF, v.v.)


0

Chà, nếu cụm của bạn thực sự tốt, bộ phân loại của bạn sẽ tào lao. Bởi vì họ không đủ sự phân chia trong dữ liệu đào tạo của họ.

Nói rằng cụm của bạn là hoàn hảo tức là tinh khiết. Bạn thậm chí không thể đào tạo một bộ phân loại đúng cách nữa. Phân loại cần ví dụ tích cực và tiêu cực!

Rừng ngẫu nhiên rất thành công trong việc làm ngược lại chính xác. Họ lấy một mẫu dữ liệu ngẫu nhiên, huấn luyện một bộ phân loại về điều đó và sau đó sử dụng tất cả các phân loại được đào tạo.

Điều có thể làm việc là sử dụng phân cụm, và sau đó huấn luyện một trình phân loại trên mỗi cặp cụm, ít nhất là nếu chúng không đồng ý đủ (nếu một lớp được chia thành hai cụm, bạn vẫn không thể đào tạo trình phân loại ở đó!)


Mục đích của việc phân cụm không phải là tìm các cụm "thuần túy", tức là các cụm tuyệt vời trong việc phân biệt biến mục tiêu của tôi. Mục đích của việc phân cụm là tìm các nhóm đồng nhất trong khu vực "khác". Để đưa ra một ví dụ: Tôi nghĩ rằng trong churn có khách hàng "chỉ chất lượng" và khách hàng "tối ưu hóa chi phí". Tôi không nghĩ rằng tôi nên cho rằng các tính năng có liên quan để phân loại là giống nhau ở cả hai nhóm vì vậy tôi muốn xây dựng mô hình riêng cho từng nhóm. Tất nhiên tôi không có các nhóm "chất lượng" và "chi phí" rõ ràng, do đó, ý tưởng phân cụm để lấy các nhóm như vậy trước tiên từ dữ liệu.
Ziel

Bất kỳ loại mất cân bằng và tương quan trong dữ liệu có thể gây hại. Xem, một bộ phân loại có thể muốn phân biệt "chỉ chất lượng" và "tối ưu hóa chi phí". Nếu anh ta chỉ có một nhóm, anh ta không thể sử dụng sự khác biệt này.
Có QUIT - Anony-Mousse

1
Nhưng chỉ khi bạn thực hiện một cách tiếp cận hai cấp, trước tiên hãy phân loại theo các cụm, sau đó đánh giá phân loại cụm. Nếu không, phân loại liên tục là vô dụng. Sau đó, bạn đang đặt tất cả gánh nặng cho cụm.
Có QUIT - Anony-Mousse

1
Chà, đó là cách tôi hiểu OP.
cbeleites không hài lòng với SX

1
Tất nhiên bạn có thể làm điều này, nhưng rất có thể là các cụm của bạn không tốt như vậy và rằng bạn tốt hơn với một bộ phân loại "chồng chéo" thích hợp. Giống như RandomForests không.
Có QUIT - Anony-Mousse
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.