Ý nghĩa chính xác của và so sánh giữa điểm ảnh hưởng, điểm đòn bẩy cao và ngoại lệ?


15

Từ Wikipedia

Các quan sát có ảnh hưởng là những quan sát có ảnh hưởng tương đối lớn đến các dự đoán của mô hình hồi quy.

Từ Wikipedia

Điểm đòn bẩy là những quan sát, nếu có, được thực hiện ở các giá trị cực trị hoặc ngoại lai của các biến độc lập sao cho việc thiếu các quan sát lân cận có nghĩa là mô hình hồi quy được trang bị sẽ vượt qua quan sát cụ thể đó.

Tại sao so sánh sau đây từ Wikipedia

Mặc dù một điểm ảnh hưởng thường sẽ có đòn bẩy cao , điểm đòn bẩy cao không nhất thiết là điểm ảnh hưởng .


2
Các câu trả lời dưới đây là tốt. Nó cũng có thể giúp đọc câu trả lời của tôi ở đây: Giải thích cốt truyện.lm () .
gung - Phục hồi Monica

Câu trả lời:


13

Hãy tưởng tượng bất kỳ dòng hồi quy phù hợp với một số dữ liệu.

Bây giờ hãy tưởng tượng một điểm dữ liệu bổ sung, một khoảng cách xa hơn so với phần chính của dữ liệu, nhưng một điểm nằm ở đâu đó dọc theo đường hồi quy đó.

Nếu đường hồi quy được chỉnh lại, các hệ số sẽ không thay đổi. Ngược lại, xóa các ngoại lệ thêm sẽ không ảnh hưởng đến các hệ số.

Vì vậy, một điểm ngoại lệ hoặc điểm đòn bẩy sẽ không có ảnh hưởng nếu nó hoàn toàn phù hợp với phần còn lại của dữ liệu và mô hình mà phần còn lại ngụ ý.

Đối với "dòng" đọc "mặt phẳng" hoặc "siêu phẳng" nếu muốn, nhưng ví dụ đơn giản nhất về hai biến và biểu đồ phân tán là đủ ở đây.

Tuy nhiên, vì bạn thích các định nghĩa - thông thường, dường như, có xu hướng đọc quá nhiều vào chúng - đây là định nghĩa yêu thích của tôi về các ngoại lệ:

"Outliers là các giá trị mẫu gây bất ngờ liên quan đến phần lớn mẫu" (WN Venables và BD Ripley. 2002. Thống kê áp dụng hiện đại với S. New York: Springer, tr.119).

Điều quan trọng, sự ngạc nhiên là trong tâm trí của người hành xử và phụ thuộc vào một số mô hình ngầm hoặc rõ ràng của dữ liệu. Có thể có một mô hình khác theo đó ngoại lệ không đáng ngạc nhiên chút nào, giả sử nếu dữ liệu thực sự là logic hoặc gamma hơn là bình thường.

Tái bút: Tôi không nghĩ rằng các điểm đòn bẩy nhất thiết thiếu các quan sát lân cận. Ví dụ, chúng có thể xảy ra theo cặp.


Cảm ơn! Là ngoại lệ và điểm đòn bẩy cao cùng một khái niệm? Lưu ý rằng "Đòn bẩy thường được định nghĩa là đường chéo của ma trận mũ" từ en.wikipedia.org/wiki/Partial_leenses
StackExchange cho tất cả

1
Không; bạn đã không chỉ cho chúng tôi một định nghĩa về "ngoại lệ", nhưng nó xuất phát từ định nghĩa về các điểm đòn bẩy mà họ không cần phải vượt trội hơn Sensu Venables và Ripley. (Tôi khuyên bạn nên cố gắng tự gạt bỏ Wikipedia.) Xem thêm câu trả lời của @ Gael.
Nick Cox

1
"Điều quan trọng, sự ngạc nhiên là trong suy nghĩ của người hành xử và phụ thuộc vào một số mô hình ngầm định hoặc rõ ràng của dữ liệu. Có thể có một mô hình khác mà theo đó ngoại lệ không đáng ngạc nhiên, hãy nói rằng liệu dữ liệu thực sự là bất thường hay gamma chứ không phải là bình thường. " Vì vậy, các ngoại lệ được xác định là một số mô hình, trong khi các điểm đòn bẩy cao và các điểm ảnh hưởng không?
StackExchange cho tất cả

1
Venables và Ripley, khi tôi đọc nó, đưa ra một quan điểm thông minh một cách dí dỏm, và đã lật đổ ý tưởng ngây thơ rằng các ngoại lệ có thể được định nghĩa bằng các tuyên bố chính thức, chính thức. Nhưng phương pháp điều trị khác có thể được tìm thấy trong các phong cách khác nhau. Ngược lại, đòn bẩy và ảnh hưởng có thể được định nghĩa chính thức theo các cách đo lường chúng. Hai phong cách sử dụng thuật ngữ không thực sự phù hợp. Để có được ý tưởng tốt hơn về các ngoại lệ là gì và không, kinh nghiệm phân tích dữ liệu thực tế dạy nhiều hơn là đọc các mục từ điển bách khoa.
Nick Cox

Gael đã đề cập đến nhận xét vào ngày 29 tháng 7 năm 2013 hiện đang sử dụng định danh @Gala. Tại thời điểm viết chỉ có một câu trả lời khác, nhưng điều đó có thể thay đổi.
Nick Cox

20

Thật dễ dàng để minh họa làm thế nào một điểm đòn bẩy cao có thể không ảnh hưởng trong trường hợp của một mô hình tuyến tính đơn giản:

Đòn bẩy cao nhưng điểm không quá ảnh hưởng

Đường màu xanh là đường hồi quy dựa trên tất cả dữ liệu, đường màu đỏ bỏ qua điểm ở phía trên bên phải của ô.

Điểm này phù hợp với định nghĩa về điểm đòn bẩy cao mà bạn vừa cung cấp vì nó nằm cách xa phần còn lại của dữ liệu. Do đó, đường hồi quy (đường màu xanh) phải vượt qua gần nó. Nhưng vì vị trí của nó phần lớn phù hợp với mẫu được quan sát trong phần còn lại của dữ liệu, nên mô hình kia sẽ dự đoán nó rất tốt (tức là đường màu đỏ đã đi gần với nó trong mọi trường hợp) và do đó nó không có ảnh hưởng đặc biệt.

So sánh điều này với biểu đồ phân tán sau:

Đòn bẩy cao điểm ảnh hưởng cao

Ở đây, điểm bên phải của cốt truyện vẫn là một điểm đòn bẩy cao nhưng lần này nó không thực sự phù hợp với mô hình quan sát được trong phần còn lại của dữ liệu. Đường màu xanh (phù hợp tuyến tính dựa trên tất cả dữ liệu) đi rất gần nhưng đường màu đỏ thì không. Bao gồm hoặc loại trừ một điểm này làm thay đổi đáng kể các ước tính tham số: Nó có rất nhiều ảnh hưởng.

Lưu ý rằng các định nghĩa bạn đã trích dẫn và các ví dụ tôi vừa đưa ra dường như ngụ ý rằng các điểm đòn bẩy / ảnh hưởng cao, theo một cách nào đó, là đơn vị vượt trội so với các dòng và các đường hồi quy được trang bị sẽ vượt qua các điểm có ảnh hưởng cao nhất nhưng nó cần không phải là trường hợp

Điểm ảnh hưởng cao

Trong ví dụ cuối cùng này, việc quan sát ở phía dưới bên phải có ảnh hưởng (tương đối) lớn đến sự phù hợp của mô hình (có thể nhìn thấy lại thông qua sự khác biệt giữa các đường màu đỏ và màu xanh) nhưng nó vẫn xuất hiện cách xa đường hồi quy trong khi không thể phát hiện được trong các bản phân phối đơn biến (được thể hiện ở đây bởi các tấm thảm của Rô-tô dọc theo các trục).


Cảm ơn! Điểm đòn bẩy cao mà chúng tôi sử dụng ở đây có phù hợp với "đòn bẩy thường được định nghĩa là đường chéo của ma trận mũ" từ en.wikipedia.org/wiki/Partial_leenses không?
StackExchange cho tất cả

Giải thích tuyệt vời. Sẽ đánh giá cao nếu bạn cũng cung cấp dữ liệu cho cả ba trường hợp. Cảm ơn
MYaseen208
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.