Phân cụm như một phương tiện phân tách dữ liệu để hồi quy logistic

10

Tôi đang cố gắng dự đoán sự thành công hay thất bại của sinh viên dựa trên một số tính năng với mô hình hồi quy logistic. Để cải thiện hiệu suất của mô hình, tôi đã nghĩ đến việc chia các sinh viên thành các nhóm khác nhau dựa trên sự khác biệt rõ ràng và xây dựng các mô hình riêng biệt cho mỗi nhóm. Nhưng tôi nghĩ có thể khó xác định các nhóm này bằng cách kiểm tra, vì vậy tôi đã nghĩ đến việc chia nhỏ các sinh viên bằng cách phân cụm các tính năng của họ. Đây có phải là một thực tế phổ biến trong việc xây dựng các mô hình như vậy? Bạn có đề nghị tôi chia nó thành các nhóm rõ ràng (ví dụ: sinh viên học kỳ đầu tiên so với sinh viên cũ) và sau đó thực hiện phân cụm trên các nhóm đó hoặc phân cụm từ đầu?

Để cố gắng làm rõ:

Ý tôi là tôi đang cân nhắc sử dụng thuật toán phân cụm để chia tập huấn luyện của tôi cho hồi quy logistic thành các nhóm. Sau đó tôi sẽ thực hiện hồi quy logistic riêng cho từng nhóm đó. Sau đó, khi sử dụng hồi quy logistic để dự đoán kết quả cho một học sinh, tôi sẽ chọn mô hình nào sẽ sử dụng dựa trên nhóm nào phù hợp nhất với họ.

Có lẽ tôi có thể làm điều tương tự bằng cách bao gồm một định danh nhóm, ví dụ: 1 nếu học sinh trở về và 0 nếu không.

Bây giờ bạn đã suy nghĩ về việc có nên phân cụm tập dữ liệu huấn luyện và sử dụng nhãn cụm của chúng như một tính năng trong hồi quy logistic hay không, thay vì xây dựng các mô hình hồi quy logistic riêng biệt cho mỗi dân số.

Nếu việc bao gồm một định danh nhóm cho những người trả lại sinh viên so với sinh viên mới thì có ích gì không, việc mở rộng danh sách các nhóm có hữu ích không? Phân cụm có vẻ như một cách tự nhiên để làm điều này.

Tôi hy vọng điều đó rõ ràng ...

clustering data-mining logistic

— đã
nguồn

Tôi nghĩ rằng tôi không nắm bắt được cách "phân cụm" và mô hình hồi quy logistic sẽ tương tác hoặc ảnh hưởng lẫn nhau. Bạn có thể giải thích sự khác biệt giữa "phân cụm" trong ngữ cảnh này và bao gồm một định danh nhóm như một biến giải thích trong hồi quy không?

— whuber

4

Tôi tin rằng nếu bạn có một sự khác biệt đáng kể trong biến phụ thuộc giữa các cụm của bạn thì cách tiếp cận phân cụm đầu tiên sẽ TỰ TIN sẽ hữu ích. Bất kể thuật toán học tập đã chọn của bạn.

Theo ý kiến của tôi, việc chạy một thuật toán learnign trên toàn bộ cơ sở có thể che đậy những khác biệt có ý nghĩa ở mức độ tổng hợp thấp hơn.

Bất cứ ai cũng nghe về nghịch lý của simpson, đó là một vấn đề khó khăn của một vấn đề sâu sắc hơn khi bạn có các mối tương quan khác nhau trong các nhóm khác nhau được bao phủ bởi tiếng ồn mẫu lớn hơn và tương quan yếu hơn của một nhóm lớn hơn.

— clancy
nguồn

Bạn có thể đúng, nhưng tôi không làm theo lập luận của bạn. Bạn có ủng hộ rằng OP chạy các LR riêng biệt trên các cụm được tìm thấy, thêm chỉ số cụm bên cạnh các hiệp phương sai, hoặc thay vì các hiệp phương sai không? Chắc chắn rằng các đồng biến có thể bị nhầm lẫn với các biến bị bỏ qua trong nghiên cứu quan sát, nhưng bạn có nói rằng CA có thể tạo ra thông tin không có trong các biến mà nó chạy không? Đối với nghịch lý của Simpson, nó sẽ được thảo luận trên CV ở đây nếu bạn quan tâm.

— gung - Tái lập Monica

Tôi đề nghị rằng phân tích không giám sát sẽ loại bỏ các nhóm đồng nhất với một tập hợp IV (biến độc lập) tùy ý. Theo cách này, bạn có thể tự quyết định xem bạn có tiến bộ với cùng một nhóm varbs hoặc một bộ mới hoặc một bộ kết hợp cho giai đoạn tiếp theo của mô hình hóa của bạn với LR không. Mục đích là để xây dựng và điều chỉnh 1 LR trên mỗi cụm (với điều kiện là các cụm có các giá trị hoặc tần số DV khác nhau đáng kể).

— clancy

Tôi đã thực sự thực hiện điều này trong bối cảnh mô hình bán sản phẩm Bảo hiểm nhân thọ bán chéo và tìm thấy dự đoán được cải thiện trên 2 cụm đang bị pha loãng bởi cụm thứ 3.

— clancy

Tôi tự hỏi nếu mô hình có thể cần một thuật ngữ spline. Bạn có thể bao gồm một mô phỏng của một số dữ liệu, phù hợp cơ bản, CA, và chỉ báo phù hợp cuối cùng (được cải thiện) không? Tôi muốn thấy điều này và chơi với nó một chút để hiểu chuyện gì đang xảy ra.

— gung - Phục hồi Monica

Xin chào Gung, tôi rất thích nhưng không thể tìm thấy thời gian. Tôi được đầu tư rất nhiều với gia đình, làm việc và cải thiện các kỹ năng mô hình của mình. Tôi mới bắt đầu làm việc với mô hình MARS và không chắc liệu điều này có đáp ứng kết quả mong muốn giống như cụm sao được mô tả + LR không.

— clancy

8

Cách tiếp cận chung được đề xuất của bạn - sử dụng các phân vùng tiềm ẩn để gán các điểm dữ liệu khác nhau cho các phân loại cơ sở khác nhau - là một cách tiếp cận được nghiên cứu kỹ về phân loại.

Lý do các phương thức này không được sử dụng rộng rãi là có thể vì chúng tương đối phức tạp và có thời gian chạy lâu hơn so với hồi quy logistic hoặc SVM. Trong nhiều trường hợp, dường như chúng có thể dẫn đến hiệu suất phân loại tốt hơn.

Dưới đây là một số tài liệu tham khảo:

Shahbaba, B. và Neal, R. "Các mô hình phi tuyến sử dụng hỗn hợp quy trình Dirichlet"
Zhu, J. và Chen, N. và Xing, EP "SVM tiềm ẩn vô hạn cho phân loại và học tập đa tác vụ"
Rasmussen, CE và Ghahramani, Z. "Hỗn hợp vô hạn của các chuyên gia quá trình Gaussian"
Meed, E. và Osindero, S. "Một hỗn hợp vô hạn thay thế của các chuyên gia quá trình Gaussian"

— người dùng1149913
nguồn

1

Tôi muốn thừa nhận ngay từ đầu rằng tôi biết tương đối ít về phân cụm. Tuy nhiên, tôi không thấy điểm của thủ tục bạn mô tả. Nếu bạn nghĩ, chẳng hạn, học kỳ đầu tiên và học sinh trở về có thể khác nhau, tại sao không bao gồm một đồng biến chỉ số đó? Tương tự như vậy nếu bạn nghĩ rằng một tính năng khác của sinh viên có liên quan, bạn cũng có thể bao gồm điều đó. Nếu bạn lo lắng rằng mối quan hệ giữa người dự đoán chính của bạn và tỷ lệ thành công có thể khác nhau, bạn cũng có thể bao gồm sự tương tác giữa người dự đoán đó và nhiệm kỳ đầu tiên so với việc quay lại, v.v. Hồi quy logistic được trang bị tốt để giải quyết những câu hỏi này thông qua các điều khoản trong mô hình.

Mặt khác, miễn là bạn chỉ phân cụm các tính năng này và thực hiện trước (không cần xem phản hồi), tôi không thấy bất kỳ vấn đề nào phát sinh. Tôi nghi ngờ cách tiếp cận này sẽ không hiệu quả, với mỗi mô hình có công suất thấp hơn vì nó chỉ phù hợp với một tập hợp con của dữ liệu, nhưng tôi không nghĩ rằng nó sẽ làm sai lệch các tham số hoặc làm mất hiệu lực các thử nghiệm. Vì vậy, tôi cho rằng bạn có thể thử điều này nếu bạn thực sự muốn.

Cập nhật:

Tôi đoán là nó sẽ là tốt nhất (nghĩa là hiệu quả nhất) để phù hợp với một mô hình với tất cả dữ liệu. Bạn có thể bao gồm một số đồng biến bổ sung (chẳng hạn như trả về so với không) ngoài sở thích chính của bạn và chỉ báo nhóm mà bạn đã phát hiện ra thông qua việc chạy phân tích cụm trước đó. Tuy nhiên, nếu các đồng biến đi vào phân tích cụm cũng được cung cấp cho mô hình hồi quy logistic, tôi không chắc liệu tôi có thể thấy những gì sẽ đạt được chỉ bao gồm tất cả các hiệp phương sai trong mô hình LR mà khôngchỉ số cụm. Có thể có một lợi thế cho điều này mà tôi không quen thuộc, vì tôi không phải là chuyên gia về phân tích cụm, nhưng tôi không biết nó sẽ như thế nào. Dường như với tôi rằng CA sẽ không tạo ra thông tin bổ sung chưa có trong các hiệp phương sai, và do đó sẽ không thêm bất cứ điều gì vào mô hình LR. Bạn có thể thử nó; có lẽ tôi sai. Nhưng tôi đoán là bạn sẽ đốt cháy thêm một vài bậc tự do.

Một cách tiếp cận khác sẽ là nhập chỉ báo cụm vào mô hình LR thay vì các đồng biến dựa trên nó. Tôi nghi ngờ điều này sẽ có lợi. CA sẽ không hoàn hảo, nhiều hơn bất kỳ phân tích nào khác, và do đó, việc chuyển từ các hiệp phương gốc sang chỉ báo cụm dẫn xuất có thể gây ra một số lượng mất thông tin . (Một lần nữa, tôi không biết điều đó, nhưng tôi cực kỳ nghi ngờ đó là sự thật.) Một lần nữa, bạn có thể thử cả hai cách và so sánh như một bài tập học thuật, mặc dù chỉ cần thử nhiều thứ và giải quyết kết quả có vẻ tốt nhất là nhăn mặt nếu bạn muốn có kết quả nghiêm túc

Tôi không muốn chỉ cá chép trên phân tích cụm. Có thể có nhiều lợi ích của chúng nói chung, và có thể có một cách sử dụng tốt cho chúng ở đây. Tuy nhiên, như tôi hiểu tình hình của bạn, tôi nghĩ chỉ cần xây dựng một mô hình LR với các đồng biến mà bạn nghĩ có thể có liên quan là cách tốt nhất.

— gung - Phục hồi Monica
nguồn

1

Nếu bạn không bị ràng buộc với hồi quy logistic, tôi khuyên bạn nên sử dụng một trình phân loại rừng ngẫu nhiên vì nó có một kiểu phân cụm được xây dựng. Ý tưởng sẽ là sử dụng ma trận tiệm cận để phân cụm. Ma trận lân cận là ma trận N_Obs by N_Obs cho phần nhỏ của cây túi trong đó các quan sát trong cùng một nút đầu cuối. Sau đó, bạn có thể tổng hợp điều này thành một mức tính năng theo ma trận cấp tính năng trong đó các phần tử là trung bình của phân số trong ma trận lân cận. Sau đó, bạn sẽ nhóm tất cả các cấp lại với nhau khi chúng vượt qua một ngưỡng và xem điều này có cải thiện dự đoán của bạn không. Có thể tốt nhất để thực hiện một cách tiếp cận lặp lại theo từng bước để tìm phân cụm tối ưu nhưng bạn có thể chọn một ngưỡng theo những cách khác. Khi phân cụm này xong, bạn có thể thay thế tính năng này bằng nhãn cụm hoặc thêm nhãn cụm làm tính năng mới. Tôi cho rằng tại thời điểm này bạn có thể chuyển về hồi quy logistic nếu bạn thực sự muốn.

— Keith
nguồn

0

Khi tạo các mô hình nhiều phân đoạn, tôi nghĩ cách tiếp cận tốt nhất là tạo các phân khúc nói lên sự khác biệt thực sự trong các bản phân phối cơ bản. Sinh viên học kỳ đầu tiên và sinh viên trở về là một ví dụ tuyệt vời, vì các bản phân phối dự đoán có thể sẽ rất khác nhau đối với hai quần thể này. Quan trọng hơn, những khác biệt này có một lời giải thích trực quan.

— Zelazny7
nguồn

Tôi nhận được giá trị của một lời giải thích trực quan - nó giúp bạn diễn giải mô hình của bạn. Nhưng không có lý do gì để nghĩ rằng nếu bạn phân nhóm mọi người thành các nhóm dựa trên sự giống nhau của họ, về các tính năng bạn có, bạn sẽ nhận được một lợi ích tương tự, mặc dù không có cùng khả năng diễn giải? Tôi đoán ý tưởng đằng sau việc sử dụng phân cụm là khi xác định các nhóm không tương ứng gọn gàng với các danh mục chúng ta sử dụng trong cuộc sống hàng ngày, máy móc tốt hơn con người ...

— dave

Và, ngoài ra, nếu bạn đào tạo mô hình hồi quy cho một nhóm sinh viên tương tự, mô hình đó sẽ chính xác hơn trong dự đoán về thành công của những sinh viên đó so với mô hình được đào tạo sử dụng một nhóm sinh viên rộng hơn.

— dave