Làm thế nào các ngoại lệ nên được xử lý trong phân tích hồi quy tuyến tính?


73

Thông thường, một nhà phân tích thống kê được trao một bộ dữ liệu tập hợp và được yêu cầu điều chỉnh mô hình bằng cách sử dụng một kỹ thuật như hồi quy tuyến tính. Rất thường xuyên bộ dữ liệu được kèm theo từ chối trách nhiệm tương tự như "Ồ đúng rồi, chúng tôi đã nhầm lẫn khi thu thập một số điểm dữ liệu này - hãy làm những gì bạn có thể".

Tình huống này dẫn đến sự phù hợp với hồi quy bị ảnh hưởng nặng nề bởi sự hiện diện của các ngoại lệ có thể là dữ liệu sai. Đưa ra những điều sau đây:

  • Thật nguy hiểm từ cả hai quan điểm khoa học và đạo đức khi vứt bỏ dữ liệu mà không có lý do nào khác ngoài việc "làm cho sự phù hợp trở nên tồi tệ".

  • Trong cuộc sống thực, những người thu thập dữ liệu thường không có sẵn để trả lời các câu hỏi như "khi tạo bộ dữ liệu này, chính xác thì điểm nào đã làm bạn bối rối?"

Những kiểm tra thống kê hoặc quy tắc của ngón tay cái có thể được sử dụng làm cơ sở để loại trừ các ngoại lệ trong phân tích hồi quy tuyến tính?

Có bất kỳ cân nhắc đặc biệt cho hồi quy đa tuyến?


Liên quan: có thể là bản sao của điều này: stats.stackexchange.com/questions/37865/iêu | R howto: stats.stackexchange.com/questions/53227/ từ
Ciro Santilli 改造

Câu trả lời:


33

Thay vì loại trừ các ngoại lệ, bạn có thể sử dụng một phương pháp hồi quy mạnh mẽ. Ví dụ, trong R, rlm()hàm từ gói MASS có thể được sử dụng thay cho lm()hàm. Phương pháp ước tính có thể được điều chỉnh để mạnh hơn hoặc kém hơn đối với các ngoại lệ.


Nếu sử dụng hàm rlm (), tôi thấy các hệ số và kiểm tra t của chúng được tạo ra. Nhưng làm thế nào tôi có thể nhận được các giá trị f-test, R-vuông từ đây? Tôi cho rằng tôi không thể đơn giản mang các giá trị bình phương f-test và R này từ các kết quả tóm tắt 'lm' đơn giản nếu tôi đúng.
Eric

1
Đối với hồi quy mạnh, các giả định đằng sau kiểm tra F không còn được thỏa mãn và R ^ 2 có thể được định nghĩa theo nhiều cách không còn tương đương. Xem thống kê.idre.ucla.edu / stata / faq / Google để biết một số thảo luận về điều này cho Stata.
Rob Hyndman


Nhưng tôi tìm thấy lệnh được gọi là f.robftest từ gói sfsmisc đưa ra kết quả f-test. Tôi có thể sử dụng kết quả này để xác định thống kê f-test cho rlm không? Ngoài ra, tôi dường như có được R vuông bằng cách nhập các giá trị vào công thức toán học R vuông như 1 - sum (phần dư (rlm (y ~ x)) ^ 2) / sum ((y-mean (y)) ^ 2) . Đối với các giá trị kiểm thử t để kiểm tra tầm quan trọng của các hệ số, tôi lấy các giá trị kiểm thử t từ tóm tắt (rlm (y ~ x)) mà tôi so sánh với các giá trị t từ mức tin cậy 95% hoặc hơn. Tôi có thể sử dụng các phương pháp này không?
Eric

22

Đôi khi các ngoại lệ là dữ liệu xấu và cần được loại trừ, chẳng hạn như lỗi chính tả. Đôi khi chúng là Wayne Gretzky hoặc Michael Jordan, và nên được giữ lại.

Các phương pháp phát hiện ngoại lệ bao gồm:

Univariate -> boxplot. ngoài phạm vi 1,5 lần giữa các nhóm là một ngoại lệ.

Bivariate -> scatterplot với hình elip tự tin. bên ngoài, giả sử, hình elip 95% độ tin cậy là một ngoại lệ.

Đa biến -> Khoảng cách Mahalanobis D2

Đánh dấu những quan sát đó là ngoại lệ.

Chạy hồi quy logistic (trên Y = IsOutlier) để xem liệu có bất kỳ mẫu hệ thống nào không.

Xóa những cái mà bạn có thể chứng minh rằng chúng không đại diện cho bất kỳ dân số phụ nào.


Và nếu bạn vẫn có các ngoại lệ, hãy xem xét sử dụng một mô hình khác với tuyến tính. Ví dụ: nếu bạn sử dụng một mô hình có hành vi như luật pháp quyền lực, Michael Jordan không còn là một ngoại lệ (về khả năng của các mô hình để phù hợp với anh ta).
drevicko

1
Đồng ý với hầu hết những gì được nói ở đây, nhưng tôi muốn thêm một sự thận trọng rằng " ngoài phạm vi giữa các phân vị 1,5 lần là một ngoại lệ " là một quy ước , không phải là một quy tắc với bất kỳ nền tảng lý thuyết nào. Nó không nên được sử dụng như một biện minh cho việc loại trừ các điểm dữ liệu.
mkt - Tái lập lại

20

Tôi nghĩ rằng có một cái gì đó để nói chỉ loại trừ các ngoại lệ. Một đường hồi quy được cho là tóm tắt dữ liệu. Do đòn bẩy, bạn có thể gặp tình huống 1% số điểm dữ liệu của bạn ảnh hưởng đến độ dốc 50%.

Nó chỉ nguy hiểm theo quan điểm đạo đức và khoa học nếu bạn không nói với bất kỳ ai rằng bạn loại trừ các ngoại lệ. Miễn là bạn chỉ ra chúng, bạn có thể nói:

"Đường hồi quy này phù hợp khá tốt với hầu hết các dữ liệu. 1% thời gian giá trị sẽ xuất hiện không phù hợp với xu hướng này, nhưng này, đó là một thế giới điên rồ, không có hệ thống nào là hoàn hảo"


1
"này, đó là một thế giới điên rồ, không có hệ thống nào là hoàn hảo" +1 cho người bạn đó! :)
bartektartanus

1
Hãy xem xét các mô hình khác mặc dù. Thế giới nếu đầy những "ngoại lệ" bị loại bỏ đó là dữ liệu thực, dẫn đến việc không dự đoán được điều gì thực sự quan trọng. Nhiều quá trình tự nhiên có hành vi quyền lực như hành vi với các sự kiện cực kỳ hiếm. Các mô hình tuyến tính có vẻ phù hợp với dữ liệu đó (mặc dù không quá tốt), nhưng sử dụng một và xóa "ngoại lệ" có nghĩa là thiếu các sự kiện cực đoan, điều thường rất quan trọng cần biết!
drevicko

10

Sắc bén,

Đặt câu hỏi của bạn theo nghĩa đen, tôi sẽ lập luận rằng không có kiểm tra thống kê hoặc quy tắc ngón tay cái nào có thể được sử dụng làm cơ sở để loại trừ các ngoại lệ trong phân tích hồi quy tuyến tính (trái ngược với việc xác định liệu một quan sát cụ thể có phải là ngoại lệ hay không). Điều này phải đến từ kiến ​​thức chủ đề.

Tôi nghĩ rằng cách tốt nhất để bắt đầu là hỏi xem các ngoại lệ thậm chí có ý nghĩa hay không, đặc biệt là với các biến khác mà bạn đã thu thập. Ví dụ, có thực sự hợp lý khi bạn có một phụ nữ nặng 600 pound trong nghiên cứu của mình, được tuyển dụng từ các phòng khám chấn thương thể thao khác nhau? Hoặc, không có gì lạ khi một người liệt kê 55 năm hoặc kinh nghiệm chuyên môn khi họ chỉ 60 tuổi? Và kể từ đó trở đi. Hy vọng rằng sau đó bạn có cơ sở hợp lý để loại bỏ chúng hoặc lấy trình biên dịch dữ liệu để kiểm tra lại các bản ghi cho bạn.

Tôi cũng sẽ đề xuất các phương pháp hồi quy mạnh mẽ và báo cáo minh bạch về các quan sát bị bỏ, như đề xuất của Rob và Chris tương ứng.

Hy vọng điều này sẽ giúp, Brenden



5

Có hai thước đo khoảng cách thống kê được dành riêng để phát hiện các ngoại lệ và sau đó xem xét liệu các ngoại lệ đó có nên được loại bỏ khỏi hồi quy tuyến tính của bạn hay không.

Cái đầu tiên là khoảng cách của Cook. Bạn có thể tìm thấy một lời giải thích khá hay về nó tại Wikipedia: http://en.wikipedia.org/wiki/Cook%27s_distance .

Khoảng cách của Cook càng cao thì ảnh hưởng (tác động đến hệ số hồi quy) càng cao. Điểm giới hạn điển hình để xem xét loại bỏ quan sát là khoảng cách của Cook = 4 / n (n là cỡ mẫu).

Cái thứ hai là DFFITS cũng được Wikipedia trình bày rất rõ: http://en.wikipedia.org/wiki/DFFITS . Điểm giới hạn điển hình để xem xét loại bỏ quan sát là giá trị DFFITS bằng 2 lần sqrt (k / n) trong đó k là số lượng biến và n là kích thước mẫu.

Cả hai biện pháp thường cho bạn kết quả tương tự dẫn đến lựa chọn quan sát tương tự.


3

Rác vào, rác ra ....

Tiềm ẩn trong việc nhận được lợi ích đầy đủ của hồi quy tuyến tính là tiếng ồn tuân theo phân phối bình thường. Lý tưởng nhất là bạn có hầu hết dữ liệu và một chút tiếng ồn .... không phải chủ yếu là tiếng ồn và một ít dữ liệu. Bạn có thể kiểm tra tính quy tắc của phần dư sau khi khớp tuyến tính bằng cách xem phần dư. Bạn cũng có thể lọc dữ liệu đầu vào trước khi phù hợp tuyến tính cho các lỗi rõ ràng, rõ ràng.

Dưới đây là một số loại nhiễu trong dữ liệu đầu vào rác thường không phù hợp với phân phối bình thường:

  • Các chữ số bị thiếu hoặc được thêm bằng dữ liệu nhập bằng tay (tắt theo hệ số 10 trở lên)
  • đơn vị sai hoặc không đúng cách chuyển đổi (gram vs kg vs pound; mét, bàn chân, dặm, km), có thể từ việc sáp nhập nhiều tập dữ liệu (Lưu ý: Mars Orbiter được cho bị mất theo cách này, vì vậy ngay cả các nhà khoa học tên lửa của NASA có thể làm cho này sai lầm)
  • Sử dụng các mã như 0, -1, -99999 hoặc 99999 để có nghĩa là một số không phải là số như "không áp dụng" hoặc "cột không khả dụng" và chỉ đưa mã này vào mô hình tuyến tính cùng với dữ liệu hợp lệ

Viết một thông số kỹ thuật cho "dữ liệu hợp lệ" cho mỗi cột có thể giúp bạn gắn thẻ dữ liệu không hợp lệ. Chẳng hạn, chiều cao của một người tính bằng cm nên nằm trong một phạm vi, giả sử, 100-300cm. Nếu bạn tìm thấy 1,8 cho chiều cao là một lỗi đánh máy, và trong khi bạn có thể giả sử nó là 1,8m và thay đổi thành 180 - tôi thường nói rằng sẽ an toàn hơn khi vứt nó đi và tốt nhất là ghi lại càng nhiều bộ lọc càng tốt.


1

Đối với hồi quy tuyến tính, bạn có thể sử dụng một đường thẳng trung bình lặp lại phù hợp.


0

Các thử nghiệm thống kê được sử dụng làm cơ sở để loại trừ: - phần dư được chuẩn hóa - thống kê đòn bẩy - Khoảng cách của Cook, là sự kết hợp của hai yếu tố trên.

Từ kinh nghiệm, loại trừ nên được giới hạn trong các trường hợp nhập dữ liệu không chính xác. Đánh giá lại các ngoại lệ trong mô hình hồi quy tuyến tính là một phương pháp thỏa hiệp rất tốt. Ứng dụng này trong R được cung cấp bởi Rob. Một ví dụ tuyệt vời ở đây: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

Nếu cần loại trừ, 'một quy tắc ngón tay cái' liên quan đến thống kê Dfbeta (các biện pháp thay đổi trong ước tính khi ngoại lệ bị xóa), nếu giá trị tuyệt đối của thống kê DfBeta vượt quá 2 / sqrt (n) thì điều đó chứng minh loại bỏ ngoại lệ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.