Phát hiện ngoại lệ bằng hồi quy


11

Có thể sử dụng hồi quy để phát hiện lier. Tôi hiểu rằng có nhiều cách để cải thiện mô hình hồi quy bằng cách loại bỏ các ngoại lệ. Nhưng mục đích chính ở đây không phải là để phù hợp với mô hình hồi quy mà là tìm ra các mức độ sử dụng hồi quy


Khi sự phù hợp được cải thiện sau khi lắp một mô hình mà không có người ngoài, có bằng chứng cho thấy đây là một giá trị cực đoan. Điều này có thể là tranh luận nếu bạn có nhiều dữ liệu, vì sự phù hợp sẽ tương đối ít được cải thiện.
Roman Luštrik

@ RomanLuštrik: đây là một định nghĩa rất do dự về các ngoại lệ. Ví dụ, nó không phù hợp với quan điểm của các ngoại lệ được sử dụng trong câu trả lời của Glen_b (hoặc cho vấn đề đó với định nghĩa về các ngoại lệ được sử dụng trong sách giáo khoa về chủ đề này như "Thống kê mạnh mẽ: Lý thuyết và Phương pháp"). Muốn trích dẫn một nguồn để hỗ trợ định nghĩa của bạn?
dùng603

Tôi không thể trích dẫn bất kỳ tài liệu tham khảo. Bạn tất nhiên là đúng, một sự cải thiện phù hợp là gì? Cải thiện có thể là một vấn đề mang tính chủ quan cao và nên được sử dụng như một hướng dẫn, không phải là giá trị cắt đứt của robot và được đánh giá dựa trên từng trường hợp cụ thể.
Roman Luštrik

Iterively Reweighted Least Squares là một phương pháp hồi quy mạnh mẽ thường được sử dụng để tìm ra các ngoại lệ trong dữ liệu.
whuber

Câu trả lời:


13

Tùy chọn tốt nhất của bạn để sử dụng hồi quy để tìm các ngoại lệ là sử dụng hồi quy mạnh.

Hồi quy thông thường có thể bị tác động bởi các ngoại lệ theo hai cách:

Đầu tiên, một ngoại lệ cực đoan theo hướng y tại các giá trị x gần có thể ảnh hưởng đến sự phù hợp trong khu vực đó giống như cách một ngoại lệ có thể ảnh hưởng đến giá trị trung bình.x¯

Thứ hai, một quan sát 'ngoại vi' trong không gian x là một quan sát có ảnh hưởng - nó có thể kéo sự phù hợp của dòng về phía nó. Nếu nó đủ xa, dòng sẽ đi qua điểm ảnh hưởng:

nhập mô tả hình ảnh ở đây

Trong cốt truyện bên trái, có một điểm khá có ảnh hưởng và nó kéo dòng khá nhiều từ phần lớn dữ liệu. Trong cốt truyện phù hợp, nó đã được di chuyển xa hơn - và bây giờ dòng này đi qua điểm. Khi giá trị x là cực trị đó, khi bạn di chuyển điểm đó lên và xuống, dòng sẽ di chuyển theo nó, đi qua giá trị trung bình của các điểm khác và thông qua một điểm ảnh hưởng.

Một điểm ảnh hưởng hoàn toàn phù hợp với phần còn lại của dữ liệu có thể không phải là vấn đề lớn, nhưng một điểm nằm xa một dòng qua phần còn lại của dữ liệu sẽ làm cho dòng phù hợp với nó, thay vì dữ liệu.

Nếu bạn nhìn vào biểu đồ bên tay phải, đường màu đỏ - đường hồi quy bình phương nhỏ nhất - không hiển thị điểm cực trị như một ngoại lệ - phần dư của nó là 0. Thay vào đó, phần dư lớn từ đường bình phương nhỏ nhất nằm trong phần chính của dữ liệu!

Điều này có nghĩa là bạn hoàn toàn có thể bỏ lỡ một ngoại lệ .

Thậm chí tệ hơn, với hồi quy bội, một ngoại lệ trong không gian x có thể trông không đặc biệt đối với bất kỳ biến x đơn nào. Nếu có khả năng về một điểm như vậy, thì đó có khả năng là một điều rất rủi ro khi sử dụng hồi quy bình phương tối thiểu.

Hồi quy mạnh mẽ

Nếu bạn phù hợp với một dòng mạnh mẽ - đặc biệt là một dòng mạnh mẽ cho các ngoại lệ có ảnh hưởng - như dòng màu xanh lá cây trong âm mưu thứ hai - thì ngoại lệ có phần dư rất lớn.

Trong trường hợp đó , bạn có một số hy vọng xác định các ngoại lệ - chúng sẽ là những điểm không - theo một nghĩa nào đó - gần với đường thẳng.


Xóa bỏ các ngoại lệ

Bạn chắc chắn có thể sử dụng một hồi quy mạnh mẽ để xác định và do đó loại bỏ các ngoại lệ.

Nhưng một khi bạn có một hồi quy phù hợp mạnh mẽ, một mức độ không bị ảnh hưởng nặng nề bởi các ngoại lệ, bạn không nhất thiết phải loại bỏ các ngoại lệ - bạn đã có một mô hình phù hợp tốt.


1
"đôi khi bạn không nhất thiết phải xóa các ngoại lệ", việc tìm ra các ngoại lệ mục đích của nghiên cứu (ví dụ: nhận dạng gian lận)
user603

1
@ user603 Tôi đồng ý, thường là vậy - nhưng tìm thấy xóa
Glen_b -Reinstate Monica

3
(+1) Câu trả lời hay, nhưng thật đáng tiếc khi bạn không đề cập đến bất kỳ phương pháp hồi quy mạnh mẽ nào. Ví dụ, đường màu xanh lá cây được vẽ trên ô phụ bên phải như thế nào (và tại sao bạn thích thuật toán đó hơn các thuật toán khác)? Có lẽ liên kết này có thể hữu ích ở đây: Hồi quy tuyến tính nhanh mạnh mẽ cho các ngoại lệ - được cho là chủ đề tốt nhất trên CV thảo luận về hồi quy mạnh.
amip nói phục hồi Monica

-2

Có thể sử dụng hồi quy để phát hiện ngoại lệ.

Đúng. Câu trả lời này và câu trả lời của Glen_b này.

Mục đích chính ở đây không phải là để phù hợp với mô hình hồi quy mà là tìm ra các mức sử dụng hồi quy

Dựa trên nhận xét của Roman Lustrik, đây là một cách tìm kiếm các ngoại lệ bằng cách sử dụng hồi quy (nhiều tuyến tính).

Hãy nói rằng bạn có cỡ mẫu . Sau đó, làm như sau:n

  1. Phù hợp với một mô hình hồi quy trên các ví dụ . Lưu ý tổng số dư của bình phương lỗi .n rtotal

  2. Đối với mỗi mẫu i, điều chỉnh mô hình hồi quy trên các ví dụ n-1 (không bao gồm ví dụ i) và ghi lại tổng số dư tương ứng của lỗi bình phương .ri

  3. Bây giờ, so sánh với cho mỗi , nếu , thì là một ứng cử viên ngoại lệ.rirtotiri<<rtotali

Đặt các ứng viên ngoại lệ này sang một bên, chúng ta có thể lặp lại toàn bộ bài tập một lần nữa với mẫu giảm. Trong thuật toán, chúng tôi đang chọn các ví dụ trong dữ liệu có ảnh hưởng đến hồi quy phù hợp theo cách xấu (đó là một cách để gắn nhãn một ví dụ là ngoại lệ).


1
Bạn đã thử chiến lược này trên bộ dữ liệu hiển thị ở đây ? Về cơ bản hơn, chiến lược của bạn có thể khẳng định rằng các ngoại lệ có thể được tìm thấy một cách đáng tin cậy từ kết quả của một chuỗi phù hợp giảm thiểu chức năng mất lồi, là một sai lầm đã biết khi có nhiều hơn một ngoại lệ (liên kết này cho thấy vấn đề này liên quan tìm kiếm các ngoại lệ đa biến nhưng kết quả cũng áp dụng cho hồi quy).
dùng603

Tôi rất vui khi loại bỏ câu trả lời của tôi. Nhưng trước tiên, tôi không hiểu cả những người bạn giới thiệu và hơn nữa, tôi không chắc tại sao họ lại trả lời sai. Đâu là một "chiến lược" là ref đầu tiên? Bạn có thể chỉ ra một câu trả lời cụ thể ở đó không? Trang và dòng nào của ref thứ hai có liên quan ở đây và thảo luận về 'ngụy biện'?
Theja

1
Xin lỗi, tôi chỉ có thể quay lại bây giờ. Phần bình luận hơi ngắn để cung cấp một ví dụ và tôi sẽ không sử dụng phần 'Trả lời' vì đó không phải là câu hỏi của OP. Tuy nhiên, bạn đã có thời gian để thử phương pháp luận của bạn về dữ liệu tôi liên kết đến?
user603
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.