Những kỹ thuật nào có sẵn để thu gọn (hoặc gộp) nhiều loại thành một số ít, với mục đích sử dụng chúng làm đầu vào (dự đoán) trong mô hình thống kê?
Hãy xem xét một biến như chuyên ngành sinh viên đại học (ngành học được chọn bởi một sinh viên đại học). Nó không có thứ tự và phân loại, nhưng nó có khả năng có thể có hàng tá cấp độ khác nhau. Giả sử tôi muốn sử dụng chính như một công cụ dự đoán trong mô hình hồi quy.
Sử dụng các cấp độ này như là để mô hình hóa dẫn đến tất cả các loại vấn đề bởi vì có rất nhiều. Rất nhiều độ chính xác thống kê sẽ bị loại bỏ để sử dụng chúng, và kết quả rất khó để giải thích. Chúng tôi hiếm khi quan tâm đến các chuyên ngành cụ thể - chúng tôi có nhiều khả năng quan tâm đến các danh mục rộng (nhóm phụ) của các chuyên ngành. Nhưng không phải lúc nào cũng rõ ràng làm thế nào để phân chia các cấp thành các loại cấp cao hơn như vậy, hoặc thậm chí có bao nhiêu loại cấp cao hơn để sử dụng.
Đối với dữ liệu điển hình, tôi sẽ rất vui khi sử dụng phân tích nhân tố, nhân tố ma trận hoặc kỹ thuật mô hình tiềm ẩn riêng biệt. Nhưng chuyên ngành là các thể loại loại trừ lẫn nhau, vì vậy tôi ngần ngại khai thác hiệp phương sai của chúng cho bất cứ điều gì.
Hơn nữa, tôi không quan tâm đến các danh mục chính của họ. Tôi quan tâm đến việc sản xuất các danh mục cấp cao hơn phù hợp với kết quả hồi quy của tôi . Trong trường hợp kết quả nhị phân, điều đó gợi ý cho tôi một cái gì đó như phân tích phân biệt đối xử tuyến tính (LDA) để tạo ra các danh mục cấp cao hơn nhằm tối đa hóa hiệu suất phân biệt đối xử. Nhưng LDA là một kỹ thuật hạn chế và cảm giác như việc nạo vét dữ liệu bẩn đối với tôi. Hơn nữa, bất kỳ giải pháp liên tục sẽ khó để giải thích.
Trong khi đó, một cái gì đó dựa trên hiệp phương sai, như phân tích tương ứng nhiều (MCA), có vẻ như tôi nghi ngờ trong trường hợp này vì sự phụ thuộc vốn có giữa các biến giả loại trừ lẫn nhau - chúng phù hợp hơn để nghiên cứu nhiều biến phân loại, thay vì nhiều loại cùng biến.
chỉnh sửa : để rõ ràng, đây là về các danh mục thu gọn (không chọn chúng) và các danh mục là các yếu tố dự đoán hoặc các biến độc lập. Nhìn nhận lại, vấn đề này có vẻ như là một thời điểm thích hợp để "bình thường hóa tất cả và để Chúa loại bỏ chúng". Vui mừng khi thấy câu hỏi này là thú vị cho rất nhiều người!