Có nên xóa các trường hợp được gắn cờ là ngoại lệ bằng phần mềm thống kê khi thực hiện hồi quy bội?


23

Tôi đang thực hiện nhiều phân tích hồi quy và tôi không chắc liệu có nên xóa các ngoại lệ trong dữ liệu của mình hay không. Dữ liệu tôi quan tâm xuất hiện dưới dạng "vòng tròn" trên các ô vuông SPSS, tuy nhiên không có dấu hoa thị (điều này khiến tôi nghĩ rằng chúng không 'tệ đến thế'). Các trường hợp tôi quan tâm có xuất hiện dưới bảng "chẩn đoán ngẫu nhiên" trong đầu ra - do đó tôi có nên xóa các trường hợp này không?


Cảm ơn bạn rất nhiều Charlie và Epigrad. Bạn có thể vui lòng đề xuất biểu đồ nào trong SPSS mà tôi nhìn vào để đánh giá xem có các ngoại lệ trong phần dư không? Các scatterplot trông khá lộn xộn! Tôi không có bất kỳ vấn đề nào với dữ liệu như vậy (vì chúng không được nhập sai) Tôi chỉ nghĩ rằng một số người tham gia của tôi có điểm số cao hơn trên một số thang điểm của tôi, tức là vì họ lo lắng hơn về mặt xã hội phần còn lại của mẫu.
Anon

3
Bạn nên vẽ giá trị dự đoán của y (giá trị được đưa ra theo mô hình mà bạn ước tính) trên trục x và phần dư trên trục y. Thay vì giá trị dự đoán của y, bạn có thể đặt một trong các biến dự đoán / biến độc lập của mình trên trục x. Bạn có thể tạo một số ô, mỗi ô có một yếu tố dự đoán khác nhau trên trục x để xem giá trị x nào dẫn đến hành vi ngoại lệ. Một lần nữa, tôi sẽ thận trọng chống lại việc loại bỏ ngoại lệ; thay vào đó, phân tích tại sao ngoại lệ xảy ra.
Charlie

1
Báo lại câu nói của Charlie, đó là "tại sao" quan trọng, thay vì "nếu", và tôi cũng sẽ thận trọng chống lại việc loại bỏ chúng. Tôi không quen thuộc với SPSS, nhưng bất kỳ tính năng nào bạn đã sử dụng để chạy hồi quy cũng có thể cung cấp cho bạn một lô dư, hoặc ít nhất là giá trị của chúng mà bạn có thể sử dụng để tạo ra âm mưu mà Charlie gợi ý.
Fomite

@Anon Tôi đã hợp nhất hai tài khoản của bạn. Vui lòng đăng ký để bạn có thể cập nhật và / hoặc nhận xét câu hỏi của bạn.
chl

3
@ user603 Không, bạn không đọc chính xác cho tôi. "Ngoại lệ" không có nghĩa gì cả - đặc biệt là khi được gắn cờ bởi một quy trình tự động trong phần mềm thống kê. Có rất nhiều ví dụ về những phát hiện quan trọng của một nghiên cứu nằm trong "các ngoại lệ". Bất cứ khi nào bạn có dữ liệu bạn đang xóa, nó sẽ là một lý do. "Chúng bất tiện" không phải là một lý do.
Fomite

Câu trả lời:


25

Cờ ngoại lệ không phải là một cuộc gọi phán xét (hoặc trong mọi trường hợp không cần phải là một). Đưa ra một mô hình thống kê, các ngoại lệ có một định nghĩa chính xác, khách quan: chúng là các quan sát không tuân theo mô hình của phần lớn dữ liệu. Những quan sát như vậy cần được đặt ra khi bắt đầu bất kỳ phân tích nào chỉ vì khoảng cách của chúng với phần lớn dữ liệu đảm bảo rằng chúng sẽ tạo ra lực kéo không cân xứng đối với bất kỳ mô hình đa biến nào phù hợp với khả năng tối đa (hoặc thực sự là bất kỳ chức năng mất lồi nào khác).

Điều quan trọng là chỉ ra rằng đa biến outlier s có thể đơn giản là không thể phát hiện nếu dùng dư từ một sự phù hợp bình phương tối thiểu (hoặc bất kỳ mô hình khác theo ước tính của ML, hay bất kỳ chức năng mất lồi khác). Nói một cách đơn giản, các ngoại lệ đa biến chỉ có thể được phát hiện một cách đáng tin cậy bằng cách sử dụng phần dư của chúng từ một mô hình được trang bị bằng thủ tục ước tính không dễ bị ảnh hưởng bởi chúng.

Niềm tin rằng các ngoại lệ sẽ cần thiết nổi bật trong phần còn lại của một mức độ phù hợp cổ điển ở đâu đó trên đó với các thống kê khó có thể gỡ rối khác như giải thích các giá trị p như thước đo bằng chứng hoặc rút ra suy luận về dân số từ một mẫu thiên vị. Ngoại trừ có lẽ điều này có thể cũ hơn nhiều: Bản thân Gauss đã khuyến nghị sử dụng công cụ ước lượng mạnh như trung bình và điên (thay vì trung bình cổ điển và độ lệch chuẩn) để ước tính các tham số của phân phối bình thường từ các quan sát nhiễu (thậm chí sẽ đi cho đến khi có được yếu tố nhất quán của điên (1)).

Để đưa ra một ví dụ trực quan đơn giản dựa trên dữ liệu thực, hãy xem xét dữ liệu sao CYG khét tiếng . Đường màu đỏ ở đây mô tả sự phù hợp vuông nhỏ nhất, đường màu xanh phù hợp thu được bằng cách sử dụng khớp hồi quy tuyến tính mạnh mẽ. Sự phù hợp mạnh mẽ ở đây cụ thể là sự phù hợp FastLTS (2), một sự thay thế cho sự phù hợp LS có thể được sử dụng để phát hiện các ngoại lệ (bởi vì nó sử dụng một thủ tục ước tính để đảm bảo rằng ảnh hưởng của bất kỳ quan sát nào đối với hệ số ước tính bị giới hạn). Mã R để sao chép nó là:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

dữ liệu saoCYG

Điều thú vị là, 4 quan sát bên ngoài bên trái thậm chí không có phần dư lớn nhất liên quan đến độ phù hợp LS và âm mưu QQ của phần dư của phù hợp LS (hoặc bất kỳ công cụ chẩn đoán nào có nguồn gốc từ chúng như khoảng cách của Cook hoặc dfbeta) không thể hiện bất kỳ vấn đề nào trong số chúng là có vấn đề. Đây thực sự là chuẩn mực: không cần nhiều hơn hai ngoại lệ (bất kể kích thước mẫu) để kéo các ước tính LS theo cách mà các ngoại lệ sẽ không nổi bật trong một âm mưu còn lại. Đây được gọi là hiệu ứng mặt nạvà nó là tài liệu tốt. Có lẽ điều duy nhất đáng chú ý về bộ dữ liệu CYGstars là nó là bivariate (do đó chúng ta có thể sử dụng kiểm tra trực quan để xác nhận kết quả của sự phù hợp mạnh mẽ) và thực sự có một lời giải thích tốt cho lý do tại sao bốn quan sát bên trái này rất bất thường.

Đây là, btw, ngoại lệ nhiều hơn so với quy tắc: ngoại trừ trong các nghiên cứu thí điểm nhỏ liên quan đến các mẫu nhỏ và một vài biến số và người thực hiện phân tích thống kê cũng tham gia vào quá trình thu thập dữ liệu, tôi chưa bao giờ gặp trường hợp nào tin tưởng trước đó về danh tính của các ngoại lệ đã thực sự đúng. Đây là bằng cách yên tĩnh dễ dàng để xác minh. Bất kể các ngoại lệ đã được xác định bằng thuật toán phát hiện ngoại lệ hay cảm giác ruột của nhà nghiên cứu, các ngoại lệ là theo quan sát định nghĩa có đòn bẩy bất thường (hoặc 'kéo') so với các hệ số thu được từ phù hợp LS. Nói cách khác, các ngoại lệ là các quan sát mà việc loại bỏ khỏi mẫu sẽ ảnh hưởng nghiêm trọng đến sự phù hợp của LS.

Mặc dù tôi cũng chưa bao giờ trải nghiệm điều này, nhưng có một số trường hợp được ghi chép rõ ràng trong tài liệu trong đó các quan sát được gắn cờ là ngoại lệ bởi thuật toán phát hiện ngoại lệ sau đó được phát hiện là lỗi thô hoặc được tạo ra bởi một quy trình khác. Trong mọi trường hợp, không được bảo đảm về mặt khoa học cũng như không khôn ngoan khi chỉ loại bỏ các ngoại lệ nếu chúng có thể được hiểu hoặc giải thích bằng cách nào đó. Nếu một nhóm nhỏ các quan sát đã bị loại bỏ khỏi phần chính của dữ liệu thì nó có thể tự mình lấy kết quả của một quy trình thống kê, đó là điều khôn ngoan (và tôi có thể thêm tự nhiên) để xử lý nó bất kể có hay không không phải những điểm dữ liệu này cũng bị nghi ngờ trên những lý do khác.

(1): xem Stephen M. Stigler, Lịch sử thống kê: Đo lường sự không chắc chắn trước năm 1900.

(2): Tính toán hồi quy LTS cho các tập dữ liệu lớn (2006) PJ Rousseeuw, K. van Driessen.

(3): Phương pháp đa biến mạnh mẽ phân tích cao (2008). Hubert M., Rousseeuw PJ và Van Aelst S. Nguồn: Statist. Khoa học Tập 23, 92-119.


6
Đây là thứ tốt (+1). Tuy nhiên, tôi nghĩ rằng bạn sử dụng sai thuật ngữ thông thường và đã đồng ý "ngoại lệ" để đề cập đến "quan sát có ảnh hưởng". Các khái niệm đều có giá trị, và bạn đối xử tốt với cái sau ở đây, nhưng chúng không thể thay thế cho nhau như bạn dường như chỉ ra. Ví dụ, một quan sát có ảnh hưởng đó phù hợp với phần lớn các dữ liệu sẽ phù hợp với đặc tính của "quan sát rằng có một đòn bẩy bất thường (hoặc 'kéo') so với hệ số thu được từ một LS phù hợp" nhưng sẽ không được xem xét bởi hầu hết các nhà văn là một "ngoại lệ" mỗi se.
whuber

2
@whuber: Điểm tốt. Thật vậy, tôi coi, cũng như các sách giáo khoa gần đây về thống kê mạnh mẽ (ví dụ, Thống kê mạnh mẽ: Lý thuyết và Phương pháp. Wiley) những quan sát như vậy (còn gọi là 'điểm đòn bẩy tốt') là có hại. Lý do là họ xua tan lỗi tiêu chuẩn của các hệ số ước tính khiến người dùng đặt niềm tin không chính đáng vào sức mạnh của mối quan hệ được quan sát. Việc xem xét các điểm đòn bẩy tốt vì các ngoại lệ cũng làm cho cách tiếp cận chính thức trở nên nhất quán hơn: sau khi tất cả các điểm đòn bẩy tốt có ảnh hưởng quá mức đến se một thành phần của LS / ML phù hợp.
user603

3
+1 Ví dụ rất hay. Dữ liệu thực cho thấy hai khớp gần như trực giao và trong đó bốn khớp có ảnh hưởng lớn ở phía trên bên trái sẽ không có số dư lớn nhất sau khớp OLS.
Wayne

19

Nói chung, tôi cảnh giác loại bỏ "ngoại lệ". Phân tích hồi quy có thể được áp dụng chính xác khi có lỗi không phân phối thông thường, lỗi biểu hiện tính không đồng nhất hoặc giá trị của các yếu tố dự đoán / biến độc lập "khác xa" so với phần còn lại. Vấn đề thực sự với các ngoại lệ là chúng không tuân theo mô hình tuyến tính mà mọi điểm dữ liệu khác tuân theo. Làm thế nào để bạn biết liệu đây là trường hợp? Bạn không.

Nếu bất cứ điều gì, bạn không muốn tìm kiếm các giá trị của các biến của bạn là ngoại lệ; thay vào đó, bạn muốn tìm kiếm các giá trị của phần dư của bạn là ngoại lệ. Nhìn vào những điểm dữ liệu này. Các biến của họ được ghi lại chính xác? Có bất kỳ lý do nào mà họ sẽ không theo cùng một mô hình với phần còn lại của dữ liệu của bạn không?

Tất nhiên, lý do tại sao những quan sát này có thể xuất hiện dưới dạng ngoại lệ (theo chẩn đoán còn lại) có thể là do mô hình của bạn sai. Tôi có một giáo sư thích nói rằng, nếu chúng ta ném đi những người ngoài cuộc, chúng ta vẫn tin rằng các hành tinh xoay quanh mặt trời theo những vòng tròn hoàn hảo. Kepler có thể đã vứt bỏ Sao Hỏa và câu chuyện quỹ đạo tròn sẽ trông khá hay. Mars cung cấp cái nhìn sâu sắc quan trọng rằng mô hình này không chính xác và anh ta sẽ bỏ lỡ kết quả này nếu bỏ qua hành tinh đó.

Bạn đã đề cập rằng việc loại bỏ các ngoại lệ không làm thay đổi kết quả của bạn rất nhiều. Điều này là do bạn chỉ có một số lượng nhỏ các quan sát mà bạn đã loại bỏ so với mẫu của bạn hoặc chúng phù hợp một cách hợp lý với mô hình của bạn. Điều này có thể gợi ý rằng, trong khi bản thân các biến có thể trông khác với phần còn lại, phần dư của chúng không nổi bật. Tôi sẽ để họ vào và không cố gắng biện minh cho quyết định của mình để loại bỏ một số điểm cho các nhà phê bình của tôi.


6
+1 Đừng vứt bỏ dữ liệu vì nó là ngoại lệ. Tìm hiểu tại sao một số dữ liệu là xa xôi.
Fomite

2
Đây là lời khuyên khủng khiếp. Điều rất phổ biến đối với các ngoại lệ là cách xa phần còn lại của dữ liệu là kéo đường hồi quy về phía họ theo cách mà họ sẽ không nổi bật trên một âm mưu còn lại (hoặc tệ nhất: mang lại số dư lớn cho chính hãng điểm dữ liệu). Trong thực tế, có thể chỉ ra rằng ngay khi bạn có nhiều hơn một ngoại lệ, nó không thể được phát hiện một cách đáng tin cậy bằng cách sử dụng một âm mưu còn lại từ hồi quy cổ điển. Đây được gọi là hiệu ứng mặt nạ và tôi cũng được ghi nhận đáng chú ý trong nhiều ví dụ dữ liệu thực.
user603

Nhân tiện, đây cũng là lý do tại sao tôi tránh sử dụng ví dụ trên sao Hỏa: nó minh họa một quy trình chỉ hoạt động nếu bạn đang xử lý một ngoại lệ duy nhất. Trong hầu hết các ứng dụng không có đảm bảo như vậy. Nó mang lại một cảm giác sai lầm về niềm tin vào một phương pháp thường thiếu sót (mà theo thống kê là thực sự chúng ta nên phát triển để ngăn chặn).
user603

15

+1 cho @Charlie và @PeterFlom; bạn đang nhận được thông tin tốt ở đó. Có lẽ tôi có thể đóng góp nhỏ ở đây bằng cách thách thức tiền đề của câu hỏi. Thông thường, một boxplot (phần mềm có thể thay đổi và tôi không biết chắc chắn SPSS đang làm gì) nhãn nhiều hơn 1,5 lần Phạm vi tứ phân vị phía trên (bên dưới) phần tư thứ ba (thứ nhất) là 'ngoại lệ'. Tuy nhiên, chúng ta có thể hỏi mức độ thường xuyên chúng ta sẽ tìm thấy ít nhất một điểm như vậy khi chúng ta biết thực tế là tất cả các điểm đến từ cùng một phân phối? Một mô phỏng đơn giản có thể giúp chúng ta trả lời câu hỏi này:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Điều này chứng tỏ rằng những điểm như vậy có thể được dự kiến ​​sẽ xảy ra phổ biến (> 50% thời gian) với các mẫu có kích thước 100, ngay cả khi không có gì là không ổn. Như câu cuối cùng gợi ý, xác suất tìm thấy một 'ngoại lệ' giả thông qua chiến lược boxplot sẽ phụ thuộc vào kích thước mẫu:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Có các chiến lược khác để tự động xác định các ngoại lệ, nhưng bất kỳ phương pháp nào như vậy đôi khi sẽ xác định sai các điểm hợp lệ là 'ngoại lệ' và đôi khi xác định nhầm các ngoại lệ thực là 'điểm hợp lệ'. (Bạn có thể coi đây là lỗi loại I và loại II .) Suy nghĩ của tôi về vấn đề này (vì giá trị của nó) là tập trung vào các tác động của việc bao gồm / loại trừ các điểm trong câu hỏi. Nếu mục tiêu của bạn là dự đoán, bạn có thể sử dụng xác thực chéo để xác định xem bao nhiêu / bao gồm các điểm trong câu hỏi có làm tăng lỗi bình phương trung bình gốc của dự đoán hay không . Nếu mục tiêu của bạn là giải thích, bạn có thể xem dfBeta(nghĩa là xem xét các ước tính beta của mô hình của bạn thay đổi bao nhiêu tùy thuộc vào việc các điểm trong câu hỏi có được bao gồm hay không). Một quan điểm khác (có thể nói là tốt nhất) là để tránh phải chọn liệu có nên loại bỏ các điểm bất thường hay không, và chỉ sử dụng các phân tích mạnh mẽ để thay thế.


Các quy trình bạn đề xuất chỉ hoạt động đáng tin cậy nếu có nhiều nhất một ngoại lệ duy nhất (bất kể kích thước của tập dữ liệu của bạn) là một giả định không thực tế. Tukey đã hiệu chỉnh quy tắc râu để loại trừ khoảng 1% các quan sát ở mỗi đầu nếu dữ liệu được rút ra từ phân phối Gaussian. Mô phỏng của bạn xác nhận rằng. Ý kiến ​​của Tukey là những tổn thất gây ra do bỏ qua một phần nhỏ dữ liệu như vậy trong những trường hợp quan sát được xử lý tốt là dành cho tất cả các mối quan tâm thực tế không quan trọng. Đặc biệt liên quan đến lợi ích trong các trường hợp khi dữ liệu không.
user603

2
Cảm ơn bình luận của bạn, @ user603; đó là một vị trí kích thích tư duy. Những thủ tục mà tôi khuyên bạn nên phản đối: sử dụng, ví dụ: dfbeta để phát hiện các ngoại lệ có thể hoặc sử dụng các phân tích mạnh mẽ (nguyên mẫu của Tukey là một hàm mất thay thế) để bảo vệ chống lại ảnh hưởng của chúng thay vì chọn điểm dữ liệu nào để loại bỏ?
gung - Tái lập Monica

cảm ơn vì đã chỉ ra sự thiếu rõ ràng trong nhận xét của tôi (tôi bị hạn chế bởi giới hạn độ dài). Tất nhiên, tôi đặc biệt có nghĩa là những cái đầu tiên: dfbeta và xác thực chéo (cái sau chỉ có vấn đề nếu các quan sát được sử dụng để xác thực chéo được lấy ngẫu nhiên từ mẫu ban đầu. Một ví dụ về trường hợp có thể sử dụng xác thực chéo được gọi là cài đặt kiểm soát chất lượng trong đó các quan sát được sử dụng để thử nghiệm được rút ra từ một mẫu tách rời theo thời gian).
user603

Cảm ơn đã làm rõ, @ user603. Tôi sẽ phải chơi với những ý tưởng này để hiểu chúng kỹ hơn. Trực giác của tôi là sẽ rất khó để không chú ý đến các ngoại lệ đang làm sai lệch kết quả của bạn; có vẻ như bạn sẽ cần phải có các ngoại lệ làm sai lệch kết quả của bạn ở cả hai bên, trong trường hợp đó, betas của bạn sẽ kết thúc xấp xỉ không thiên vị và kết quả của bạn chỉ đơn giản là ít 'đáng kể'.
gung - Phục hồi Monica

1
Trực giác của tôi là sẽ rất khó để không chú ý đến các ngoại lệ đang làm sai lệch kết quả của bạn, nhưng thật không may, thực tế là nó không phải như vậy. Cũng nhìn vào ví dụ tôi cung cấp trong câu trả lời của tôi.
user603

12

Trước tiên bạn nên xem xét các lô của phần dư: Họ có tuân theo (đại khái) một phân phối bình thường không? Họ có dấu hiệu không đồng nhất? Nhìn vào các âm mưu khác nữa (tôi không sử dụng SPSS, vì vậy không thể nói chính xác làm thế nào để thực hiện điều này trong chương trình đó, cũng như những ô vuông nào bạn đang xem; tuy nhiên, thật khó để tưởng tượng rằng các dấu hoa thị có nghĩa là "không tệ" rằng đây là những điểm rất bất thường bởi một số tiêu chí).

Sau đó, nếu bạn có ngoại lệ, hãy nhìn vào chúng và cố gắng tìm hiểu tại sao.

Sau đó, bạn có thể thử hồi quy có và không có ngoại lệ. Nếu kết quả tương tự, cuộc sống là tốt. Báo cáo kết quả đầy đủ với một chú thích. Nếu không giống nhau, thì bạn nên giải thích cả hai hồi quy.


1
Cảm ơn Peter rất nhiều. Tôi đã kiểm tra các lô QQ và dữ liệu dường như không bình thường. Khi tôi xóa các ngoại lệ, chúng dường như không tạo ra nhiều sự khác biệt đối với kết quả. Vì vậy, do đó, tôi có nên để chúng trong? Tôi vẫn sẽ thích thú khi nghe những suy nghĩ của người khác về bảng chẩn đoán casewise trong SPSS. Cảm ơn nhiều.
Anon

1
Vâng, sau đó tôi sẽ để lại cho họ một chú thích giống như "phân tích với một số ngoại lệ bị xóa cho thấy kết quả rất giống nhau"
Peter Flom - Tái lập Monica

2
Ngay cả khi giả sử người ta có thể tin cậy tìm ra các ngoại lệ bằng cách sử dụng một quy trình như vậy (và hầu hết thời gian, người ta không thể ) vẫn để lại vấn đề kỳ lạ phải làm gì khi bạn không thể "tìm ra" / giải thích các ngoại lệ. Tôi thứ hai lời khuyên để tránh SPSS. -
user603
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.