Trong ký hiệu tôi sẽ sử dụng, sẽ là số lượng biến thiết kế (bao gồm cả số hạng không đổi), n số lượng quan sát với n ≥ 2 p + 1 (nếu điều kiện cuối cùng này không được đáp ứng, gói sẽ không trả về phù hợp nhưng một lỗi, vì vậy tôi giả sử nó được đáp ứng). Tôi sẽ biểu thị bằng vectơ của các hệ số được ước tính bởi FLTS ( ) và các hệ số được ước tính bởi MM ( ). Tôi cũng sẽ viết:pnn≥2p+1β^FLTSltsReg
β^MMlmrob
r2i(β^)=(yi−x⊤iβ^)2
(đây là phần dư bình phương, không phải là phần chuẩn!)
Các rlm
chức năng phù hợp với một 'M' ước lượng hồi quy và, như đề nghị @Frank Harrell đã khiến trong các ý kiến cho câu hỏi của bạn, nó không phải là mạnh mẽ để tách trên không gian thiết kế. Hồi quy thông thường có điểm phân tích (tỷ lệ dữ liệu của bạn cần được thay thế bằng các ngoại lệ để kéo các hệ số được trang bị thành các giá trị tùy ý) về cơ bản là có nghĩa là một ngoại lệ duy nhất (bất kể !) Đủ để hiển thị phù hợp vô nghĩa . Đối với ước tính hồi quy M (ví dụ hồi quy Huber M), điểm phân tích về cơ bản là . Điều này có phần cao hơn nhưng trong thực tế vẫn khó chịu gần bằng 0 (vì thường sẽ lớn). Kết luận duy nhất có thể được rút ra từ1/nn1/(p+1)prlm
việc tìm kiếm sự phù hợp khác với hai phương pháp còn lại là nó đã bị ảnh hưởng bởi các ngoại lệ thiết kế và phải có nhiều hơn trong số này trong tập dữ liệu của bạn.p+1
Ngược lại, hai thuật toán còn lại mạnh mẽ hơn nhiều: điểm phân tích của chúng chỉ dưới và quan trọng hơn, không co lại khi trở nên lớn. Khi điều chỉnh mô hình tuyến tính bằng phương pháp mạnh, bạn giả sử rằng ít nhất quan sát trong dữ liệu của bạn không bị nhiễm bẩn. Nhiệm vụ của hai thuật toán này là tìm ra những quan sát đó và phù hợp với chúng nhất có thể. Chính xác hơn, nếu chúng ta biểu thị:1/2ph=⌊(n+p+1)/2⌋+1
HFLTSHMM={i:r2i(β^FLTS)≤qh/n(r2i(β^FLTS))}={i:r2i(β^MM)≤qh/n(r2i(β^MM))}
(trong đó là lượng tử của vectơ )qh/n(r2i(β^MM))h/nr2i(β^MM)
sau đó ( ) cố gắng khớp các quan sát với các chỉ số trong ( ).β^MMβ^FLTSHMMHFLTS
Thực tế là có sự khác biệt lớn giữa và chỉ ra rằng hai thuật toán không xác định cùng một tập hợp quan sát là ngoại lệ. Điều này có nghĩa là ít nhất một trong số chúng bị ảnh hưởng bởi các ngoại lệ. Trong trường hợp này, sử dụng (đã điều chỉnh) hoặc bất kỳ một thống kê nào từ một trong hai số liệu phù hợp để quyết định sử dụng, mặc dù trực quan, là một ý tưởng tồi tệ : phù hợp bị ô nhiễm thường có lượng dư nhỏ hơn so với sạch (nhưng vì kiến thức về Đây là lý do người ta sử dụng số liệu thống kê mạnh mẽ ngay từ đầu, tôi cho rằng OP nhận thức rõ về thực tế này và tôi không cần phải mở rộng về điều này).β^FLTSβ^MMR2
Hai sự phù hợp mạnh mẽ cho kết quả mâu thuẫn và câu hỏi nào là chính xác? Một cách để giải quyết điều này là xem xét tập hợp:
H+=HMM∩HFLTS
bởi vì , . Hơn nữa, nếu một trong hai hoặc không có ngoại lệ, thì . Giải pháp tôi đề xuất khai thác thực tế này. Tính toán:h≥[n/2]#{H+}≥pHMMHFLTSH+
D(H+,β^FLTS,β^MM)=∑i∈H+(r2i(β^FLTS)−r2i(β^MM))
Ví dụ: nếu , thì
phù hợp với các quan sát tốt hơn và vì vậy tôi sẽ tin tưởng hơn. Và ngược lại.D(H+,β^FLTS,β^MM)<0β^FLTSβ^MMβ^FLTS