Có thể sử dụng hồi quy để phát hiện lier. Tôi hiểu rằng có nhiều cách để cải thiện mô hình hồi quy bằng cách loại bỏ các ngoại lệ. Nhưng mục đích chính ở đây không phải là để phù hợp với mô hình hồi quy mà là tìm ra các mức độ sử dụng hồi quy
Có thể sử dụng hồi quy để phát hiện lier. Tôi hiểu rằng có nhiều cách để cải thiện mô hình hồi quy bằng cách loại bỏ các ngoại lệ. Nhưng mục đích chính ở đây không phải là để phù hợp với mô hình hồi quy mà là tìm ra các mức độ sử dụng hồi quy
Câu trả lời:
Tùy chọn tốt nhất của bạn để sử dụng hồi quy để tìm các ngoại lệ là sử dụng hồi quy mạnh.
Hồi quy thông thường có thể bị tác động bởi các ngoại lệ theo hai cách:
Đầu tiên, một ngoại lệ cực đoan theo hướng y tại các giá trị x gần có thể ảnh hưởng đến sự phù hợp trong khu vực đó giống như cách một ngoại lệ có thể ảnh hưởng đến giá trị trung bình.
Thứ hai, một quan sát 'ngoại vi' trong không gian x là một quan sát có ảnh hưởng - nó có thể kéo sự phù hợp của dòng về phía nó. Nếu nó đủ xa, dòng sẽ đi qua điểm ảnh hưởng:
Trong cốt truyện bên trái, có một điểm khá có ảnh hưởng và nó kéo dòng khá nhiều từ phần lớn dữ liệu. Trong cốt truyện phù hợp, nó đã được di chuyển xa hơn - và bây giờ dòng này đi qua điểm. Khi giá trị x là cực trị đó, khi bạn di chuyển điểm đó lên và xuống, dòng sẽ di chuyển theo nó, đi qua giá trị trung bình của các điểm khác và thông qua một điểm ảnh hưởng.
Một điểm ảnh hưởng hoàn toàn phù hợp với phần còn lại của dữ liệu có thể không phải là vấn đề lớn, nhưng một điểm nằm xa một dòng qua phần còn lại của dữ liệu sẽ làm cho dòng phù hợp với nó, thay vì dữ liệu.
Nếu bạn nhìn vào biểu đồ bên tay phải, đường màu đỏ - đường hồi quy bình phương nhỏ nhất - không hiển thị điểm cực trị như một ngoại lệ - phần dư của nó là 0. Thay vào đó, phần dư lớn từ đường bình phương nhỏ nhất nằm trong phần chính của dữ liệu!
Điều này có nghĩa là bạn hoàn toàn có thể bỏ lỡ một ngoại lệ .
Thậm chí tệ hơn, với hồi quy bội, một ngoại lệ trong không gian x có thể trông không đặc biệt đối với bất kỳ biến x đơn nào. Nếu có khả năng về một điểm như vậy, thì đó có khả năng là một điều rất rủi ro khi sử dụng hồi quy bình phương tối thiểu.
Hồi quy mạnh mẽ
Nếu bạn phù hợp với một dòng mạnh mẽ - đặc biệt là một dòng mạnh mẽ cho các ngoại lệ có ảnh hưởng - như dòng màu xanh lá cây trong âm mưu thứ hai - thì ngoại lệ có phần dư rất lớn.
Trong trường hợp đó , bạn có một số hy vọng xác định các ngoại lệ - chúng sẽ là những điểm không - theo một nghĩa nào đó - gần với đường thẳng.
Xóa bỏ các ngoại lệ
Bạn chắc chắn có thể sử dụng một hồi quy mạnh mẽ để xác định và do đó loại bỏ các ngoại lệ.
Nhưng một khi bạn có một hồi quy phù hợp mạnh mẽ, một mức độ không bị ảnh hưởng nặng nề bởi các ngoại lệ, bạn không nhất thiết phải loại bỏ các ngoại lệ - bạn đã có một mô hình phù hợp tốt.
Có thể sử dụng hồi quy để phát hiện ngoại lệ.
Đúng. Câu trả lời này và câu trả lời của Glen_b này.
Mục đích chính ở đây không phải là để phù hợp với mô hình hồi quy mà là tìm ra các mức sử dụng hồi quy
Dựa trên nhận xét của Roman Lustrik, đây là một cách tìm kiếm các ngoại lệ bằng cách sử dụng hồi quy (nhiều tuyến tính).
Hãy nói rằng bạn có cỡ mẫu . Sau đó, làm như sau:
Phù hợp với một mô hình hồi quy trên các ví dụ . Lưu ý tổng số dư của bình phương lỗi .
Đối với mỗi mẫu i, điều chỉnh mô hình hồi quy trên các ví dụ n-1 (không bao gồm ví dụ i) và ghi lại tổng số dư tương ứng của lỗi bình phương .
Bây giờ, so sánh với cho mỗi , nếu , thì là một ứng cử viên ngoại lệ.
Đặt các ứng viên ngoại lệ này sang một bên, chúng ta có thể lặp lại toàn bộ bài tập một lần nữa với mẫu giảm. Trong thuật toán, chúng tôi đang chọn các ví dụ trong dữ liệu có ảnh hưởng đến hồi quy phù hợp theo cách xấu (đó là một cách để gắn nhãn một ví dụ là ngoại lệ).