Khoảng cách của Cook trong việc phát hiện các ngoại lệ


7

Theo hiểu biết của tôi, khoảng cách của Cook đo lường mức độ ảnh hưởng của từng quan sát bằng cách loại trừ các điểm khi lắp mô hình. Vì vậy, tôi cho rằng nó có thể là một cách tiếp cận hợp lý để phát hiện ngoại lệ?

Câu hỏi của tôi, giả sử dữ liệu được phân loại thành các nhóm, có thể sử dụng khoảng cách của Cook để phát hiện nhóm "ngoại lệ" thay vì điểm ngoại lệ không? Có phải khoảng cách của Cook là một lựa chọn tốt về đo lường ảnh hưởng của nhóm.


Bạn có thể tạo một biến nhân tố cho nhóm và sau đó thực hiện các ô không?
jchaykow

Cảm ơn bạn, tôi chỉ nhận thấy có một tùy chọn nhóm trong influence(). Tôi có một câu hỏi khác về ngưỡng. Vì 4 / N thông thường là "quá nhạy cảm" phát hiện ngoại lệ, trong khi tôi chỉ quan tâm đến nhóm / điểm có ảnh hưởng cực lớn. @jchaykow
Roy C

1
Đối với các bộ dữ liệu nhỏ hơn, điểm cắt D của Cook có thể là 1.
jchaykow

@jchaykow Nó hoạt động tốt trên một số bộ dữ liệu của tôi, mặc dù không phải là bộ dữ liệu thực sự nhỏ. Tôi sẽ thử nó trên những người khác sau. Đây có phải là một loại quy tắc của ngón tay cái không, và tôi nên diễn giải sự cắt đứt này như thế nào? Cảm ơn bạn.
Roy C

Câu trả lời:


3

Giống như bạn đã nói Khoảng cách của Cook đo lường sự thay đổi trong hồi quy bằng cách loại bỏ từng điểm riêng lẻ. Nếu mọi thứ thay đổi khá nhiều bởi sự thiếu sót của một điểm duy nhất, thì điểm đó đã ảnh hưởng rất nhiều đến mô hình của bạn. Xác định là giá trị phù hợp cho quan sát thứ j khi quan sát thứ i bị xóa khỏi tập dữ liệu. Khoảng cách của Cook đo lường mức độ thay đổi tất cả các dự đoán.Y^j(Tôi)Tôi

DTôi= =Σj= =1nY^j-Y^j(Tôi))2pMSE
= =eTôi2pMSE[hTôiTôi(1-hTôiTôi)2]

Nếu thì cực kỳ (đối với các bộ dữ liệu vừa và nhỏ).DTôi1

Khoảng cách của Cook cho thấy ảnh hưởng của trường hợp thứ i đối với tất cả các giá trị được trang bị. Lưu ý rằng trường hợp thứ i có thể bị ảnh hưởng bởi

  1. lớn và vừa phảieTôihTôiTôi

  2. vừa phải và lớneTôihTôiTôi

  3. lớn vàeTôihTôiTôi

Trong R, sử dụng influence.measuresgói vớicooks.distance(model)


Cảm ơn đã làm rõ định nghĩa. Nhưng câu hỏi của tôi là nhiều hơn về việc
Roy C

@DaisyLee bình luận của bạn đã bị cắt
jchaykow

Lol, chỉ cần chú ý là bạn. Cảm ơn đã làm rõ định nghĩa. Tôi muốn hỏi liệu ý tưởng mở rộng việc sử dụng khoảng cách của Cook để phát hiện nhóm ngoại lệ thay vì một số điểm là sai lầm, hay hợp lý? Và bạn nghĩ thế nào về việc sử dụng boxplot / IQR để cắt khoảng cách đầu bếp có ảnh hưởng lớn?
Roy C

1
Sử dụng Khoảng cách của Cook sẽ không hoạt động dựa trên bản chất của phương pháp (nghĩa là loại bỏ từng điểm riêng lẻ). Nếu bạn chỉ đơn giản muốn kiểm tra ngoại lệ của một biến dựa trên các nhóm của bạn bằng sd hoặc một phương thức tương tự như bạn nêu ở trên, thì đây không phải là vấn đề ... df1 = df%>% group_by (nhóm)%>% bộ lọc (! ( abs (giá trị - trung bình (pre1))> 2 * sd (pre1)))%>% summise_each (funs (mean), pre1)
jchaykow

@DaisyLee ngoài điều này tôi không có ý tưởng. Có lẽ người khác có thể hỗ trợ nhiều hơn.
jchaykow

1

Cook's D không hiệu quả trong việc phát hiện cụm ngoại lệ vì loại bỏ một trong số đó sẽ không ảnh hưởng đến mô hình quá nhiều (vẫn còn các ngoại lệ khác).

Bạn có thể sử dụng phần dư làm thước đo, độ nhạy với các cụm. Một cách thực hiện đơn giản của phương tiện k cũng có hiệu quả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.