Là phương pháp mạnh mẽ thực sự tốt hơn?

Tôi có hai nhóm đối tượng, A và B, mỗi nhóm có kích thước khoảng 400 và khoảng 300 người dự đoán. Mục tiêu của tôi là xây dựng một mô hình dự đoán cho một biến phản ứng nhị phân. Khách hàng của tôi muốn xem kết quả của việc áp dụng mô hình được xây dựng từ A trên B. (Trong cuốn sách "Chiến lược mô hình hồi quy", @FrankHarrell đề cập rằng nên kết hợp hai bộ dữ liệu và xây dựng mô hình trên đó sức mạnh và độ chính xác --- xem trang 90, Xác nhận bên ngoài. Tôi có xu hướng đồng ý với anh ta, xem xét rằng việc thu thập loại dữ liệu mà tôi có rất tốn kém và mất thời gian. Nhưng tôi không có lựa chọn nào về những gì khách hàng muốn .) Nhiều người dự đoán của tôi có mối tương quan cao và cũng rất sai lệch. Tôi đang sử dụng hồi quy logistic để xây dựng mô hình dự đoán của mình.

Dự đoán của tôi chủ yếu đến từ cơ học. Ví dụ: tổng thời gian đối tượng chịu ứng suất cao hơn ngưỡng trong khoảng thời gian , đối với các giá trị khác nhau của và . Rõ ràng là chỉ từ định nghĩa của họ, nhiều trong số tổng số lần này có liên quan đến đại số với nhau. Nhiều dự đoán không liên quan đến đại số có liên quan vì bản chất của chúng: các đối tượng bị căng thẳng cao trong khoảng thời gian có xu hướng bị căng thẳng cao trong khoảng thời gian , ngay cả khi $\alpha$ $[t_1, t_2]$ $\alpha > 0$ $0 \leq t_1 < t_2$ $[t_1, t_2]$ $[t_3,t_4]$ $[t_1,t_2] \cap [t_3,t_4] = \emptyset$ . Để giảm kích thước của dữ liệu, tôi đã nhóm các dự đoán liên quan lại với nhau (ví dụ: tất cả các lần căng thẳng cùng nhau) và sử dụng phân tích thành phần chính để biểu diễn từng cụm. Vì các biến bị sai lệch, tôi đã thử hai đường dẫn khác:

Trước khi thực hiện PCA, tôi đã sử dụng một phép biến đổi logarit để giảm độ lệch trong các biến.
Tôi đã sử dụng thuật toán ROBPCA của Mia Hubert, được triển khai bởi gói rrcov trong R, (PcaHubert), để tìm các thành phần chính mạnh mẽ.

Tôi đang sử dụng hình dạng tổng thể của đường cong ROC, hình dạng của đường cong gợi nhớ chính xác và khu vực dưới đường cong ROC (AUC) làm thước đo hiệu suất của tôi và tôi muốn có kết quả tương tự cho cả hai tập dữ liệu A và B Tôi đã mong đợi có được kết quả tốt hơn từ việc sử dụng các thành phần chính mạnh mẽ, nhưng thật ngạc nhiên, phương pháp đầu tiên đã làm tốt hơn: giá trị AUC tốt hơn cho cả hai tập dữ liệu A và B, tương tự nhiều hơn giữa các đường cong ROC và thu hồi chính xác tương tự đường cong.

Giải thích cho điều này là gì? Và làm cách nào tôi có thể sử dụng các thành phần chính mạnh mẽ, thay vì cố gắng làm cho dữ liệu của mình trông như bình thường? Có phương pháp PCA cụ thể nào mà bạn muốn giới thiệu thay vì ROBPCA không?

— người dùng765195
nguồn

"Tôi nhóm các dự đoán liên quan lại với nhau" bạn có thể giải thích rõ hơn về các bước liên quan không? "Tôi đã mong đợi nhận được kết quả tốt hơn nhiều từ việc sử dụng các thành phần chính mạnh mẽ" Bạn có thể giải thích cách bạn đo lường kết quả không?

— user603

Tại sao bạn nghĩ tốt hơn là kết hợp các bộ dữ liệu? Tôi không đồng ý chút nào. Một khó khăn mà loại vấn đề này gặp phải là phụ thuộc quá nhiều vào dữ liệu cụ thể. Kiểm tra mô hình trên một tập dữ liệu khác là một ý tưởng tốt.

— Peter Flom - Tái lập Monica

Theo nghĩa nào thì PCA thông thường trên các biến log "tốt hơn"? Nó có ý nghĩa trực quan hơn? Nó có cho kết quả tốt hơn trong tập dữ liệu thứ hai không?

— Peter Flom - Tái lập Monica

Cảm ơn bạn @PeterFlom cho ý kiến của bạn! Tôi đã cập nhật câu hỏi theo ý kiến của bạn.

— dùng765195

Cảm ơn bạn @ user603 vì bình luận của bạn! Tôi đã cập nhật câu hỏi để phản ánh nhận xét của bạn.

— dùng765195

Tóm lại, và từ mô tả của bạn, bạn đang so sánh táo với cam .... theo hai cách.

Hãy để tôi giải quyết vấn đề so sánh đầu tiên một cách ngắn gọn. Biến đổi nhật ký không giải quyết vấn đề ngoại lệ. Tuy nhiên, nó có thể giúp làm cho dữ liệu bị sai lệch nhiều đối xứng hơn, có khả năng cải thiện sự phù hợp của bất kỳ phương pháp PCA nào. Nói tóm lại, lấy của dữ liệu của bạn không phải là sự thay thế để thực hiện phân tích mạnh mẽ và trong một số trường hợp (dữ liệu sai lệch) cũng có thể là một bổ sung. Để đặt bộ gây nhiễu đầu tiên này, cho phần còn lại của bài đăng này, tôi sử dụng phiên bản chuyển đổi nhật ký của một số dữ liệu hai biến không đối xứng. $\log$

Xem xét ví dụ này:

library("MASS")
library("copula")
library("rrcov")
p<-2;n<-100;

eps<-0.2
l1<-list()
l3<-list(rate=1)
#generate assymetric data
model<-mvdc(claytonCopula(1,dim=p),c("unif","exp"),list(l1,l3));
x1<-rMvdc(ceiling(n*(1-eps)),model);
#adding 20% of outliers at the end:
x1<-rbind(x1,mvrnorm(n-ceiling(n*(1-eps)),c(7,3),1/2*diag(2)))

dữ liệu

Bây giờ, phù hợp với hai mô hình (ROBPCA và pca cổ điển cả trên nhật ký dữ liệu):

x2<-log(x1)
v0<-PcaClassic(x2)
v1<-PcaHubert(x2,mcd=FALSE,k=2)

Bây giờ, hãy xem xét trục của biến thể nhỏ nhất được tìm thấy theo từng phương thức (ở đây, để thuận tiện, tôi vẽ nó trên không gian chuyển đổi log nhưng bạn sẽ nhận được kết luận tương tự trên không gian ban đầu).

mô hình

Rõ ràng, ROBPCA thực hiện công việc xử lý phần dữ liệu không bị nhiễm bẩn tốt hơn (các chấm màu xanh lá cây):

Nhưng bây giờ, tôi đến điểm thứ hai của mình.

- gọi tập hợp tất cả các dấu chấm màu xanh lá cây và ( ) điểm số mạnh mẽ (cổ điển) được ghi vào trục biến đổi ít nhất - $H_u$ $z_i$ $w_i$

bạn có điều đó (điều này là yên tĩnh có thể nhìn thấy trong cốt truyện ở trên):

\sum_{i \in H_{u}} (z_{i})^{2} < \sum_{i \in H_{u}} (w_{i})^{2} (1)

$\sum_{i\in H_u}(z_i)^2<\sum_{i\in H_u}(w_i)^2\;\;\;(1)$

Nhưng bạn có vẻ ngạc nhiên rằng:

\sum_{i = 1}^{n} (z_{i})^{2} > \sum_{i = 1}^{n} (w_{i})^{2} (2)

$\sum_{i=1}^n(z_i)^2>\sum_{i=1}^n(w_i)^2\;\;\;(2)$

- theo cách bạn mô tả quy trình thử nghiệm của mình, bạn tính toán tiêu chí đánh giá sự phù hợp trên toàn bộ tập dữ liệu, vì vậy tiêu chí đánh giá của bạn là một hàm đơn điệu của (2) trong đó bạn nên sử dụng hàm đơn điệu của (1) -

Nói cách khác, đừng mong đợi một sự phù hợp mạnh mẽ để có tổng số phần dư trực giao bình phương nhỏ hơn một quy trình không mạnh mẽ trên tập dữ liệu đầy đủ của bạn: công cụ ước tính không mạnh mẽ đã là bộ giảm thiểu duy nhất của SSOR trên tập dữ liệu đầy đủ.

— người dùng603
nguồn

Cảm ơn bạn đã phản hồi của bạn. Phải mất một thời gian để thử nghiệm với dữ liệu khác và suy nghĩ về phản ứng của bạn để thực sự hiểu nó.

— dùng765195