Chọn giá trị k cho phân tích phát hiện Yếu tố ngoại lệ cục bộ (LOF)


9

Tôi có một bộ dữ liệu ba chiều và tôi đang cố gắng sử dụng phân tích Yếu tố ngoại lệ cục bộ để xác định các giá trị độc nhất hoặc lạ nhất. Làm thế nào để một người quyết định giá trị k để sử dụng trong phân tích LOF? Tôi hiểu giá trị k xác định là gì và vì vậy tôi không ngạc nhiên khi tôi thấy các kết quả hơi khác nhau khi sử dụng các giá trị k khác nhau, nhưng tôi không chắc có những đặc điểm nào trong bộ dữ liệu của mình sẽ đẩy tôi về một giá trị so với các giá trị khác . Cảm ơn!

Câu trả lời:


10

Đăng bài này ở đây cho bất kỳ ai gặp phải câu hỏi của tôi trong tương lai - bài báo gốc mô tả thuật toán yếu tố ngoại lệ cục bộ, "LOF: Xác định các ngoại lệ cục bộ dựa trên mật độ" (Breunig et al), đề xuất phương pháp chọn giá trị k . Xin nhắc lại, thuật toán LOF so sánh mật độ của từng điểm với mật độ của các lân cận -closest của nó . Các tác giả của nghiên cứu khuyên bạn nên chọn tối thiểu k và tối đa k , và cho mỗi điểm, lấy giá trị LOF tối đa trên mỗi k trong phạm vi đó. Họ cung cấp một số hướng dẫn để chọn giới hạn.kkkk

k<10mTôin(k)= =10kk= =1512pppNN

NNk<Nk>N

k


Chỉ muốn hiểu một điều. Giả sử với bất kỳ tập dữ liệu nào tôi chọn k = 20 và tạo LOF cho mỗi điểm và sau đó tôi hiển thị tất cả các điểm theo thứ tự giảm dần của LOF của nó. Bây giờ khi tôi đang phân tích dữ liệu, tôi có thể chọn phạm vi mà tôi nghĩ rằng dữ liệu là ngoại lệ (theo kiến ​​thức về tên miền) Bạn có nghĩ rằng điều này có ích không ?? Tôi chỉ là tôi vì bây giờ tôi không phải lo lắng về giá trị của k và tôi đang sử dụng kiến ​​thức tên miền của mình để phân tích các ngoại lệ theo xếp hạng LOF. Cảm ơn,
Swapnil Bhure
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.