Tôi có hai nhóm đối tượng, A và B, mỗi nhóm có kích thước khoảng 400 và khoảng 300 người dự đoán. Mục tiêu của tôi là xây dựng một mô hình dự đoán cho một biến phản ứng nhị phân. Khách hàng của tôi muốn xem kết quả của việc áp dụng mô hình được xây dựng từ A trên B. (Trong cuốn sách "Chiến lược mô hình hồi quy", @FrankHarrell đề cập rằng nên kết hợp hai bộ dữ liệu và xây dựng mô hình trên đó sức mạnh và độ chính xác --- xem trang 90, Xác nhận bên ngoài. Tôi có xu hướng đồng ý với anh ta, xem xét rằng việc thu thập loại dữ liệu mà tôi có rất tốn kém và mất thời gian. Nhưng tôi không có lựa chọn nào về những gì khách hàng muốn .) Nhiều người dự đoán của tôi có mối tương quan cao và cũng rất sai lệch. Tôi đang sử dụng hồi quy logistic để xây dựng mô hình dự đoán của mình.
Dự đoán của tôi chủ yếu đến từ cơ học. Ví dụ: tổng thời gian đối tượng chịu ứng suất cao hơn ngưỡng trong khoảng thời gian , đối với các giá trị khác nhau của và . Rõ ràng là chỉ từ định nghĩa của họ, nhiều trong số tổng số lần này có liên quan đến đại số với nhau. Nhiều dự đoán không liên quan đến đại số có liên quan vì bản chất của chúng: các đối tượng bị căng thẳng cao trong khoảng thời gian có xu hướng bị căng thẳng cao trong khoảng thời gian , ngay cả khi[ t 1 , t 2 ] α > 0 0 ≤ t 1 < t 2 [ t 1 , t 2 ] [ t 3 , t 4 ] [ t 1 , t 2 ] ∩ [ t 3 , t 4 ] = ∅. Để giảm kích thước của dữ liệu, tôi đã nhóm các dự đoán liên quan lại với nhau (ví dụ: tất cả các lần căng thẳng cùng nhau) và sử dụng phân tích thành phần chính để biểu diễn từng cụm. Vì các biến bị sai lệch, tôi đã thử hai đường dẫn khác:
- Trước khi thực hiện PCA, tôi đã sử dụng một phép biến đổi logarit để giảm độ lệch trong các biến.
- Tôi đã sử dụng thuật toán ROBPCA của Mia Hubert, được triển khai bởi gói rrcov trong R, (PcaHubert), để tìm các thành phần chính mạnh mẽ.
Tôi đang sử dụng hình dạng tổng thể của đường cong ROC, hình dạng của đường cong gợi nhớ chính xác và khu vực dưới đường cong ROC (AUC) làm thước đo hiệu suất của tôi và tôi muốn có kết quả tương tự cho cả hai tập dữ liệu A và B Tôi đã mong đợi có được kết quả tốt hơn từ việc sử dụng các thành phần chính mạnh mẽ, nhưng thật ngạc nhiên, phương pháp đầu tiên đã làm tốt hơn: giá trị AUC tốt hơn cho cả hai tập dữ liệu A và B, tương tự nhiều hơn giữa các đường cong ROC và thu hồi chính xác tương tự đường cong.
Giải thích cho điều này là gì? Và làm cách nào tôi có thể sử dụng các thành phần chính mạnh mẽ, thay vì cố gắng làm cho dữ liệu của mình trông như bình thường? Có phương pháp PCA cụ thể nào mà bạn muốn giới thiệu thay vì ROBPCA không?