Có phải là gian lận khi bỏ các ngoại lệ dựa trên boxplot của Lỗi tuyệt đối trung bình để cải thiện mô hình hồi quy


15

Tôi có một mô hình dự đoán được thử nghiệm với bốn phương pháp như bạn có thể thấy trong hình boxplot bên dưới. Thuộc tính mà mô hình dự đoán nằm trong khoảng 0-8.

Bạn có thể nhận thấy rằng có một ngoại lệ giới hạn trênba ngoại lệ giới hạn dưới được chỉ định bởi tất cả các phương pháp. Tôi tự hỏi nếu nó là thích hợp để loại bỏ những trường hợp này khỏi dữ liệu? Hay đây là một loại gian lận để cải thiện mô hình dự đoán?

nhập mô tả hình ảnh ở đây


1
(1) Tôi thấy kết quả cho bốn phương pháp chứ không phải ba. (2) Làm thế nào có thể loại bỏ bằng chứng về khả năng dự đoán có thể cải thiện các phương pháp?
whuber

@whuber (1) là cố định. Đối với (2), do đó, bạn có nghĩa là loại bỏ một trường hợp được dự đoán rất không chính xác, sẽ không dẫn đến hiệu suất dự đoán tốt hơn trong tổng thể (đây là ý của tôi với "mô hình cải tiến" ?
renakre

7
loại bỏ một quan sát vì bất kỳ lý do gì (giả sử 4 điểm phù hợp nhất) tự nó là một lựa chọn mô hình. Bạn nên đánh giá hiệu quả dự báo này lựa chọn mô hình thứ hai quá . Điểm nổi bật là bảo toàn tính toàn vẹn của bộ thử nghiệm cuối cùng được sử dụng để đánh giá hiệu suất của phương pháp dự đoán tổng thể. Không rõ câu hỏi của bạn cho dù bạn có kế hoạch cải tiến các mô hình (Lasso, v.v.) sau khi xóa dữ liệu dự đoán xấu.
user603

2
Như một nhận xét bên lề, tôi muốn nói thêm rằng đôi khi giá trị to lớn bị ẩn giấu trong các ngoại lệ và thật đáng để xem xét cẩn thận chúng.
Dror Atariah

@DrorAtariah Cảm ơn Dror, tôi đồng ý. Trường hợp cực đoan có giá trị.
renakre

Câu trả lời:


22

Đó là hầu như luôn luôn là một gian lận để loại bỏ các quan sát để cải thiện một mô hình hồi quy. Bạn chỉ nên bỏ các quan sát khi bạn thực sự nghĩ rằng đây thực sự là những ngoại lệ.

Chẳng hạn, bạn có chuỗi thời gian từ máy đo nhịp tim được kết nối với đồng hồ thông minh của bạn. Nếu bạn xem loạt bài này, thật dễ dàng để thấy rằng sẽ có những quan sát sai lầm với các bài đọc như 300bps. Chúng nên được loại bỏ, nhưng không phải vì bạn muốn cải thiện mô hình (ý nghĩa của nó). Chúng là những lỗi đọc không liên quan gì đến nhịp tim của bạn.

Một điều cần cẩn thận là sự tương quan của các lỗi với dữ liệu. Trong ví dụ của tôi, có thể lập luận rằng bạn có lỗi khi máy đo nhịp tim bị dịch chuyển trong các bài tập như chạy o nhảy. Điều này sẽ làm cho các lỗi này tương quan với tỷ lệ hart. Trong trường hợp này, phải cẩn thận trong việc loại bỏ các ngoại lệ và lỗi này, vì chúng không phải là ngẫu nhiên

Tôi sẽ cung cấp cho bạn một ví dụ về thời điểm không loại bỏ các ngoại lệ . Giả sử bạn đang đo chuyển động của trọng lượng vào mùa xuân. Nếu trọng lượng nhỏ so với sức mạnh của trọng lượng, thì bạn sẽ nhận thấy luật Hooke hoạt động rất tốt: trong đó là lực, - hệ số căng và là vị trí của cân nặng.

F=kΔx,
FkΔx

Bây giờ nếu bạn đặt một trọng lượng rất nặng hoặc thay thế trọng lượng quá nhiều, bạn sẽ bắt đầu thấy độ lệch: tại các chuyển vị đủ lớn chuyển động dường như sẽ lệch khỏi mô hình tuyến tính. Vì vậy, bạn có thể muốn loại bỏ các ngoại lệ để cải thiện mô hình tuyến tính. Đây sẽ không phải là một ý tưởng tốt, bởi vì mô hình không hoạt động tốt vì luật của Hooke chỉ gần đúng.Δx

CẬP NHẬT Trong trường hợp của bạn, tôi sẽ đề nghị kéo các điểm dữ liệu đó và nhìn chúng gần hơn. Nó có thể là dụng cụ phòng thí nghiệm thất bại? Giao thoa bên ngoài? Khiếm khuyết mẫu? Vân vân.

Tiếp theo hãy cố gắng xác định xem liệu sự giả định của các ngoại lệ này có thể tương quan với những gì bạn đo lường như trong ví dụ tôi đã đưa ra hay không. Nếu có tương quan thì không có cách nào đơn giản để đi về nó. Nếu không có mối tương quan thì bạn có thể loại bỏ các ngoại lệ


2
It is always a cheating to remove outliers to improve a regression model. Bạn có coi hồi quy spline là gian lận ? FWIW, nó thực hiện các quan sát giảm trọng lượng để cải thiện mô hình hồi quy [cục bộ] ~
user603

1
Tôi sẽ không đồng ý "Luôn luôn là gian lận để loại bỏ các ngoại lệ để cải thiện mô hình hồi quy." có nhiều công cụ để thực hiện chẩn đoán hồi quy và mục tiêu của nó là phát hiện và "loại bỏ" các ngoại lệ và chỉnh sửa mô hình.
Haitao Du

6
@ hxd1011, các công cụ như Grubbs không được tự động xóa các ngoại lệ. Họ chỉ cho biết rằng có thể có ngoại lệ, sau đó bạn quyết định xem đó có phải là ngoại lệ hay không. Đó là một cách tiếp cận rất nguy hiểm để cải thiện chẩn đoán phù hợp bằng cách tự động loại bỏ các ngoại lệ. Bạn phải phân tích chúng theo từng trường hợp.
Aksakal

2
OK tôi hiểu rồi. Ngôn ngữ ban đầu của tôi quá cứng nhắc. Tôi chỉnh sửa câu mở đầu. Cảm ơn phản hồi để bình luận
Aksakal

1
@renakre, nếu bạn không nghĩ đây là những ngoại lệ, thì đừng xóa những quan sát. Tuy nhiên, những gì bạn có thể cần xem xét là thước đo mức độ tốt của dự báo khác với sai số bình phương. Chẳng hạn, nếu những trường hợp này không quá quan trọng với bạn thì có lẽ bạn không cần phải cân chúng ở mức bình phương, và thay vào đó sử dụng độ lệch tuyệt đối, v.v ... Biện pháp này sẽ phản ánh tầm quan trọng của lỗi dự báo, chẳng hạn như mất đô la cho mỗi lỗi dự đoán . Ngoài ra, thực tế là những số đếm này không tự động có nghĩa là không có lỗi về công cụ, các plugin trang web đếm số lần nhấp có thể không thành công
Aksakal

4

Ban đầu tôi muốn đăng bài này như một bình luận cho một câu trả lời khác, nhưng nó đã quá dài để phù hợp.

Khi tôi nhìn vào mô hình của bạn, nó không nhất thiết phải chứa một nhóm lớn và một số ngoại lệ. Theo tôi, nó chứa 1 nhóm cỡ trung bình (1 đến -1) và sau đó là 6 nhóm nhỏ hơn, mỗi nhóm được tìm thấy giữa 2 số nguyên. Bạn có thể thấy khá rõ rằng khi đạt đến một số nguyên, sẽ có ít quan sát hơn ở các tần số đó. Điểm đặc biệt duy nhất là 0, trong đó thực sự không có sự sụt giảm rõ rệt nào trong các quan sát.

Theo tôi, đáng để giải quyết tại sao phân phối này được lan truyền như thế này:

  • Tại sao phân phối có số lượng quan sát giảm xuống ở cả số?
  • Tại sao số lượng quan sát này giảm không xảy ra ở 0?
  • Điều gì đặc biệt về những ngoại lệ này mà chúng là những ngoại lệ?

Khi đo lường các hành động rời rạc của con người, bạn sẽ luôn có những ngoại lệ. Thật thú vị khi xem lý do tại sao những ngoại lệ đó không phù hợp với mô hình của bạn và cách chúng có thể được sử dụng để cải thiện các lần lặp lại trong tương lai của mô hình của bạn.


+1. Khoảng cách toàn số dường như không phải lúc nào cũng đúng với toàn bộ số, vì vậy có thể nhiều người trong chúng ta sẽ thấy một mẫu không tồn tại, nhưng nó có thể là một tạo tác của việc thu thập dữ liệu, mã hóa hoặc phân tách có thể làm sáng tỏ trên toàn bộ dữ liệu Thậm chí có thể có một khoảng cách ở 0 bị che khuất bởi số lượng lớn các chấm chồng chéo và có lẽ bị xáo trộn. Chắc chắn có giá trị theo đuổi nguồn gốc để xem liệu dữ liệu đó là những gì chúng ta nghĩ.
Wayne

2

Có những ưu và nhược điểm để loại bỏ các ngoại lệ và mô hình xây dựng chỉ cho "mẫu bình thường".

  • Ưu điểm: hiệu suất mô hình tốt hơn. Trực giác là, rất khó sử dụng mô hình ONE để chụp cả "mẫu bình thường" và "mẫu ngoại lệ". Vì vậy, chúng tôi loại bỏ các ngoại lệ và nói rằng, chúng tôi chỉ xây dựng một mô hình cho "mẫu bình thường".

  • Nhược điểm: chúng tôi sẽ không thể dự đoán cho các ngoại lệ. Nói cách khác, giả sử chúng ta đưa mô hình của mình vào sản xuất, sẽ có một số dự đoán còn thiếu từ mô hình

Tôi sẽ đề nghị loại bỏ các ngoại lệ và xây dựng mô hình, và nếu có thể hãy cố gắng xây dựng một mô hình riêng biệt chỉ để ngoại lệ.

Đối với từ "gian lận", nếu bạn đang viết giấy và liệt kê rõ ràng cách bạn xác định và xóa các ngoại lệ, và hiệu suất được đề cập chỉ được đề cập trên dữ liệu sạch. Đó không phải là gian lận.


3
Tôi không ngại bị hạ thấp, nhưng ai đó có thể cho tôi biết lý do không?
Haitao Du

Tôi đã nâng cấp :) Bạn có nghĩ rằng nên loại bỏ các ngoại lệ và sau đó lấy mẫu lại dữ liệu để thử nghiệm thêm mô hình dự đoán không?
renakre

1
@renakre tôi sẽ đề nghị bạn suy nghĩ về những gì cần làm trong sản xuất. Giả sử, nếu bạn phát hiện ra ngoại lệ chỉ là 1%, và sẽ không có sản lượng nào trong sản xuất. Sau đó chỉ cần loại bỏ chúng. Nếu bạn phát hiện ra ngoại lệ là 30% và không thể bỏ qua dự đoán trong sản xuất. Sau đó cố gắng có một mô hình riêng cho nó.
Haitao Du

Chúng tôi chủ yếu đang thử nghiệm mọi thứ để xem liệu chúng tôi có thể dự đoán một số biến kết quả hay không. Có if it is fine to produce no output in productionnghĩa là điều tương tự? Vì vậy, nếu chúng ta bắt đầu sử dụng mô hình của mình trong một ứng dụng thực tế để kiểm tra biến kết quả và sử dụng điểm số dự đoán trong ứng dụng, thì sẽ không ổn nếu loại bỏ các ngoại lệ (đặc biệt là nếu chúng có nhiều như bạn đã đề cập)? Đây có phải là những gì bạn có ý nghĩa?
renakre

1
@renakre Bạn chết rồi! Đó là những gì chúng tôi đã thực hiện gần đây với AITOBOX, nơi các giới hạn dự báo không chỉ dựa trên trọng số psi mà cả các lỗi được lấy mẫu lại được đưa ra với các ngoại lệ. Điều này được thực hiện không chỉ cho các mô hình ARIMA mà cả các mô hình nguyên nhân trong đó tính không chắc chắn trong các yếu tố dự đoán cũng được kết hợp theo kiểu tương tự.
IrishStat

2

Tôi tin rằng chỉ hợp lý để loại bỏ các ngoại lệ khi một người có lý do định tính vững chắc để làm như vậy. Điều này có nghĩa là người ta có thông tin rằng một biến khác, không có trong mô hình, đang tác động đến các quan sát ngoại lệ. Sau đó, người ta có lựa chọn loại bỏ các ngoại lệ hoặc thêm các biến bổ sung.

Tôi thấy rằng khi tôi có các quan sát ngoại lệ trong tập dữ liệu của mình, bằng cách nghiên cứu để xác định lý do tại sao ngoại lệ tồn tại, tôi tìm hiểu thêm về dữ liệu của mình và các mô hình khác có thể xem xét.


1
Chào mừng bạn đến với số liệu thống kê. Xin vui lòng dành một chút thời gian để xem tour du lịch của chúng tôi . Sẽ rất hữu ích nếu bạn mở rộng câu trả lời của mình để trả lời đầy đủ hơn cho câu hỏi (chẳng hạn như xác định ngoại lệ dựa trên boxplot, các tác động của phương pháp này có thể có đối với mô hình dự đoán, & c.).
Tavrock

2

Tôi thậm chí không tin rằng họ là "ngoại lệ". Bạn có thể muốn làm cho một âm mưu xác suất bình thường. Chúng có phải là dữ liệu hoặc phần dư từ việc lắp một mô hình không?


chúng là sự khác biệt giữa giá trị dự đoán và giá trị thực.
renakre
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.