Nói rằng chúng tôi có một mẫu từ hai quần thể: A
và B
. Giả sử những quần thể này được tạo thành từ các cá nhân và chúng tôi chọn mô tả các cá nhân theo các tính năng. Một số tính năng này là phân loại (ví dụ: chúng có lái xe đi làm không?) Và một số tính năng là số (ví dụ: chiều cao của chúng). Hãy gọi các tính năng này: . Chúng tôi thu thập hàng trăm tính năng này (ví dụ: n = 200), giả sử đơn giản, không có lỗi cũng như tiếng ồn trên tất cả các cá nhân.
Chúng tôi đưa ra giả thuyết hai quần thể là khác nhau. Mục tiêu của chúng tôi là trả lời hai câu hỏi sau:
- Họ thực sự khác nhau đáng kể?
- Có gì khác biệt đáng kể giữa chúng?
Các phương pháp như cây quyết định (ví dụ rừng ngẫu nhiên) và phân tích hồi quy tuyến tính có thể giúp ích. Ví dụ, người ta có thể xem xét tầm quan trọng của tính năng trong các khu rừng ngẫu nhiên hoặc các hệ số phù hợp trong hồi quy tuyến tính để hiểu điều gì có thể phân biệt các nhóm này và khám phá mối quan hệ giữa các tính năng và quần thể.
Trước khi tôi đi xuống tuyến đường này, tôi muốn biết được các lựa chọn của mình ở đây, những gì tốt và hiện đại so với thực tiễn xấu. Xin lưu ý rằng mục tiêu của tôi không phải là dự đoán theo từng se, mà là thử nghiệm và tìm thấy bất kỳ sự khác biệt đáng kể nào giữa các nhóm.
Một số cách tiếp cận nguyên tắc để giải quyết vấn đề này là gì?
Dưới đây là một số mối quan tâm tôi có:
Các phương pháp như phân tích hồi quy tuyến tính có thể không trả lời đầy đủ (2), phải không? Ví dụ, một sự phù hợp duy nhất có thể giúp tìm thấy một số khác biệt, nhưng không phải tất cả sự khác biệt đáng kể. Ví dụ: đa cộng tuyến có thể ngăn chúng tôi tìm cách tất cả các tính năng khác nhau giữa các nhóm (ít nhất là trên một mức phù hợp). Vì lý do tương tự, tôi hy vọng ANOVA không thể cung cấp câu trả lời đầy đủ cho (2).
Không hoàn toàn rõ ràng cách tiếp cận dự đoán sẽ trả lời (1). Ví dụ, chúng ta nên giảm thiểu phân loại / chức năng dự đoán nào? Và làm thế nào để chúng ta kiểm tra xem các nhóm có khác nhau đáng kể hay không một khi chúng ta có sự phù hợp? Cuối cùng, tôi lo lắng rằng câu trả lời tôi nhận được (1) có thể phụ thuộc vào bộ mô hình phân loại cụ thể mà tôi sử dụng.