Thay thế các ngoại lệ bằng trung bình


31

Câu hỏi này đã được hỏi bởi người bạn của tôi, người không rành về internet. Tôi không có nền tảng thống kê và tôi đã tìm kiếm trên internet cho câu hỏi này.

Câu hỏi là: có thể thay thế các ngoại lệ bằng giá trị trung bình không? nếu có thể, có bất kỳ tài liệu tham khảo / tạp chí nào để sao lưu tuyên bố này không?


25
Chắc chắn có thể làm điều này, nhưng thật khó để tưởng tượng một tình huống mà nó có ý nghĩa để làm như vậy.
Peter Flom - Tái lập Monica

2
Đã có nhiều câu trả lời dài hơn, nhưng tóm tắt một câu của @Peter Flom dường như không thể phù hợp như một bản tóm tắt.
Nick Cox

4
Chưa có câu trả lời nào chỉ ra con voi trong phòng: mặc dù việc thay thế "ngoại lệ" bằng cách bảo tồn trung bình của một tập dữ liệu, nó thay đổi hầu hết mọi thống kê khác. Nó thậm chí thay đổi các ước tính về lỗi tiêu chuẩn của giá trị trung bình. Theo đó - để hỗ trợ cho nhận xét của @Peter Flom - bộ dữ liệu kết quả không có vẻ hữu ích cho bất kỳ hình thức suy luận đáng tin cậy nào. (Có thể hình dung nó có thể được sử dụng không theo đúng nghĩa của nó, nhưng trong các bước trung gian trong một thủ tục lặp đi lặp lại để xác định giá trị ngoại biên, do đó giải thích tại sao một thủ tục như vậy có thể tồn tại ở nơi đầu tiên.)
whuber

1
@whuber Rõ ràng là một điểm quan trọng. Tôi sẽ đưa nó vào một câu trả lời khác, để nó không bị bỏ sót bởi bất cứ ai đọc chủ đề này quá nhanh. Mọi người bị cám dỗ bởi thiết bị này, và rõ ràng có một số, cần phải nhận ra rằng đó là (a) không phải là một ý tưởng tốt (b) một ý tưởng tồi.
Nick Cox

1
@ user2357112 Hàm ý là giá trị trung bình được sử dụng là giá trị trung bình của các giá trị khác. Giá trị ngoại lệ, được coi là không đáng tin cậy, không nên được đưa vào tính toán.
Nick Cox

Câu trả lời:


41

Rõ ràng là có thể, nhưng không rõ ràng nó có thể là một ý tưởng tốt.

Chúng ta hãy đánh vần một số cách mà đây là một giải pháp hạn chế hoặc thiếu sót:

  • Trong thực tế, bạn đang nói rằng giá trị ngoại lệ là hoàn toàn không đáng tin, đến mức mà bạn chỉ có thể đoán là giá trị đó phải là giá trị trung bình. Nếu đó là những gì bạn nghĩ, có thể thành thật hơn chỉ là bỏ qua quan sát trong câu hỏi, vì rõ ràng bạn không có đủ thông tin để đoán đúng hơn.

  • Không có gì khác nói, bạn cần một tiêu chí hoặc tiêu chí để xác định các ngoại lệ ở vị trí đầu tiên (theo ngụ ý của @Frank Harrell). Nếu không thì đây là một thủ tục tùy tiện và chủ quan, ngay cả khi nó được bảo vệ như một vấn đề của sự phán xét. Với một số tiêu chí, có thể loại bỏ các ngoại lệ theo cách này sẽ tạo ra nhiều ngoại lệ hơn như là một hiệu ứng phụ. Một ví dụ có thể là các ngoại lệ có nhiều hơn rất nhiều độ lệch chuẩn so với giá trị trung bình. Xóa một ngoại lệ sẽ thay đổi độ lệch chuẩn và các điểm dữ liệu mới hiện có thể đủ điều kiện, v.v.

  • Có lẽ giá trị trung bình ở đây có nghĩa là giá trị trung bình của tất cả các giá trị khác, một điểm được làm rõ bởi @David Marx. Ý tưởng là mơ hồ mà không có quy định này.

  • Sử dụng giá trị trung bình có vẻ là một quy trình an toàn hoặc bảo thủ, nhưng việc thay đổi giá trị thành giá trị trung bình sẽ thay đổi hầu hết mọi thống kê khác, bao gồm các thước đo về mức độ, tỷ lệ và hình dạng và các chỉ số về độ không chắc chắn của chúng, một điểm nhấn mạnh bởi @whuber.

  • Giá trị trung bình thậm chí có thể không phải là một giá trị khả thi: ví dụ đơn giản là khi các giá trị là số nguyên, nhưng thông thường giá trị trung bình không phải là số nguyên.

  • Ngay cả với ý tưởng rằng sử dụng một biện pháp tóm tắt là một điều cần thận trọng, sử dụng giá trị trung bình thay vì trung bình hoặc bất kỳ biện pháp nào khác cần một số biện minh.

  • Bất cứ khi nào có các biến khác, việc sửa đổi giá trị của một biến mà không tham chiếu đến các biến khác có thể làm cho điểm dữ liệu trở nên bất thường theo các nghĩa khác.

Làm gì với ngoại lệ là một câu hỏi mở và rất khó. Một cách lỏng lẻo, các giải pháp và chiến lược khác nhau có sức hấp dẫn khác nhau. Dưới đây là danh sách một phần các khả năng. Việc đặt hàng là tùy ý và không có nghĩa là truyền đạt bất kỳ trật tự nào về khả năng áp dụng, tầm quan trọng hoặc bất kỳ tiêu chí nào khác. Cũng không phải là những cách tiếp cận loại trừ lẫn nhau.

  • Một định nghĩa (theo quan điểm của tôi là tốt) là "[o] utliers là các giá trị mẫu gây bất ngờ liên quan đến phần lớn mẫu" (WN Venables và BD Ripley. 2002. Thống kê áp dụng hiện đại với S. New York: Springer, tr.119). Tuy nhiên, bất ngờ là trong suy nghĩ của người theo dõi và phụ thuộc vào một số mô hình ngầm hoặc rõ ràng của dữ liệu. Có thể có một mô hình khác theo đó ngoại lệ không gây ngạc nhiên chút nào, vì vậy dữ liệu thực sự là (nói) lognatural hoặc gamma chứ không phải bình thường. Tóm lại, hãy chuẩn bị (xem xét lại) mô hình của bạn.

  • Đi vào phòng thí nghiệm hoặc hiện trường và làm lại phép đo. Thường thì điều này là không thể, nhưng nó có vẻ chuẩn trong một số ngành khoa học.

  • Kiểm tra xem các ngoại lệ là chính hãng. Hầu hết các bài kiểm tra có vẻ khá phù hợp với tôi, nhưng bạn có thể tìm thấy một bài kiểm tra mà bạn có thể tin là phù hợp với tình huống của bạn. Niềm tin vô lý rằng một bài kiểm tra là phù hợp luôn luôn cần thiết để áp dụng một bài kiểm tra mà sau đó được trình bày là hợp lý tinh túy.

  • Ném chúng ra như một vấn đề của sự phán xét.

  • Ném chúng ra bằng cách sử dụng một số quy tắc ít nhiều tự động (thường không "khách quan").

  • Bỏ qua chúng, một phần hoặc hoàn toàn. Điều này có thể là chính thức (ví dụ như cắt xén) hoặc chỉ là vấn đề để lại chúng trong bộ dữ liệu, nhưng bỏ qua chúng khỏi các phân tích là quá nóng để xử lý.

  • Kéo chúng vào bằng cách sử dụng một số loại điều chỉnh, ví dụ Winsorizing.

  • Hạ thấp chúng bằng cách sử dụng một số phương pháp ước lượng mạnh mẽ khác.

  • Hạ thấp họ bằng cách làm việc trên một quy mô chuyển đổi.

  • Hạ thấp chúng bằng cách sử dụng chức năng liên kết không nhận dạng.

  • Chứa chúng bằng cách lắp một số phân phối chất béo, dài hoặc đuôi thích hợp, không có hoặc có các yếu tố dự đoán.

  • Chứa đựng bằng cách sử dụng một chỉ báo hoặc biến giả như một công cụ dự đoán bổ sung trong mô hình.

  • Bước bên cạnh vấn đề bằng cách sử dụng một số thủ tục không tham số (ví dụ dựa trên xếp hạng).

  • Kiểm soát sự không chắc chắn ngụ ý bằng cách sử dụng thủ tục bootstrapping, jackknifing hoặc hoán vị.

  • Chỉnh sửa để thay thế một ngoại lệ với một số giá trị có khả năng hơn, dựa trên logic xác định. "Một bà cụ 18 tuổi là không thể, nhưng người trong câu hỏi được sinh ra vào năm 1932, vì vậy có lẽ thực sự là 81."

  • Chỉnh sửa để thay thế một ngoại lệ không thể hoặc không thể sử dụng được bằng cách sử dụng một số phương pháp cắt bỏ hiện đang được chấp nhận là ma thuật không hoàn toàn trắng.

  • Phân tích có và không có, và xem (các) ngoại lệ tạo ra (các) ngoại lệ, theo thống kê, khoa học hoặc thực tế.

  • Một cái gì đó Bayes. Sự thiếu hiểu biết trước đây của tôi về những gì cấm đưa ra bất kỳ chi tiết nào.

EDIT Phiên bản thứ hai này được hưởng lợi từ các câu trả lời và ý kiến ​​khác. Tôi đã cố gắn cờ nguồn cảm hứng của mình.


1
(+1) câu trả lời hay. Về phía Bayes, người ta có thể làm nhiều việc, nhưng thực tế, bạn đang cố gắng xây dựng một mô hình nào đó để làm thế nào bạn có được những giá trị như vậy (quá trình dẫn đến ngoại lệ). Ví dụ: có thể là một cái gì đó đơn giản như "mỗi giá trị dữ liệu có một xác suất nhỏ không xác định là từ một phân phối lớn hơn nhiều so với phần lớn dữ liệu" và sau đó đặt phân phối trước vào xác suất đó và chính thức hóa một số lựa chọn cho dữ liệu đó phân phối và linh mục cho các tham số của nó. Hiệu quả là giảm trọng lượng tác động của các điểm không phù hợp với mô hình.
Glen_b -Reinstate Monica

16

Có một số vấn đề ngụ ý bởi câu hỏi của bạn.

  1. Một "ngoại lệ" là gì?
  2. Có nên thay thế một "ngoại lệ"?
  3. Điều gì là đặc biệt về ý nghĩa trái ngược với một số ước tính khác?
  4. Làm thế nào bạn sẽ bù để tăng phương sai rõ ràng khi thay thế bởi một giá trị duy nhất gây ra phương sai quá nhỏ?
  5. Tại sao không sử dụng các công cụ ước tính mạnh mẽ có khả năng chống lại các ngoại lệ?
  6. Đây là một biến độc lập hay phụ thuộc?

Không ai trong số 1-5 có câu trả lời rõ ràng. Nếu bạn thực sự cảm thấy rằng những "ngoại lệ" này là sai và bạn không muốn sử dụng một phương pháp thống kê mạnh mẽ, bạn có thể làm cho chúng bị thiếu và sử dụng nhiều thuật ngữ như một giải pháp khả thi. Nếu biến là biến phụ thuộc, một lựa chọn mạnh mẽ là hồi quy thứ tự.


1
+1, điểm tốt. Tôi bị thu hút bởi đề nghị OLR; Có lý do nào bạn thích điều đó khi sử dụng chức năng mất mạnh mẽ như Tukey's bisapes không?
gung - Phục hồi Monica

2
Hồi quy thông thường có lẽ mạnh hơn một chút so với điều đó và cho phép ước tính các đại lượng được xác định rõ: phương tiện, lượng tử và xác suất. Ngoài ra, bạn có tất cả sức mạnh của tỷ lệ khả năng, Wald, và kiểm tra điểm số và khoảng tin cậy. Ước tính trung bình và trung bình trong hồi quy thứ tự không dư thừa, nghĩa là chúng không được kết nối tầm thường nhưng được phép "thả nổi" vì các giả định phân phối ít hơn. YYY
Frank Harrell

9

Đề xuất có nhiều sai sót trong đó. Đây có lẽ là lớn nhất.

Giả sử bạn đang thu thập dữ liệu và bạn thấy các giá trị này:

2,3,1

Giá trị trung bình, cho đến nay là .6/3=2

Sau đó đến một ngoại lệ:

2,3,1,1000

Vì vậy, bạn thay thế nó bằng có nghĩa là:

2,3,1,2

Số tiếp theo là tốt:

2,3,1,2,7

Bây giờ giá trị trung bình là 3. Đợi một phút, giá trị trung bình là 3, nhưng chúng tôi đã thay 1000 bằng giá trị trung bình là 2, chỉ vì nó xảy ra như giá trị thứ tư. Nếu chúng ta thay đổi thứ tự của các mẫu thì sao?

2,3,1,7,1000

Bây giờ giá trị trung bình trước 1000 là . Vậy chúng ta có nên thay 1000 bằng nghĩa đó không?(2+3+1+7)/4=13/4

Vấn đề là dữ liệu sai mà chúng ta đang thay thế thay cho 1000 phụ thuộc vào dữ liệu khác. Đó là một vấn đề nhận thức luận nếu các mẫu được cho là đại diện cho các phép đo độc lập.

Sau đó, bạn có một vấn đề rõ ràng là bạn không chỉ giữ lại dữ liệu không phù hợp với giả định của mình mà còn làm sai lệch dữ liệu. Khi một số kết quả không mong muốn xảy ra, bạn tăng và thay thế một giá trị giả. Điều này là sai vì được coi là số lượng mẫu. Bây giờ đại diện cho số lượng mẫu, cộng với số lượng giá trị fudge được thêm vào dữ liệu. Về cơ bản, nó phá hủy tính hợp lệ của tất cả các tính toán liên quan đến : ngay cả những tính toán không sử dụng các giá trị fudge. của bạn là một giá trị fudge quá!n n n nnnnnn

Về cơ bản, cắt xén các kết quả không phù hợp là một điều (và có thể được biện minh nếu nó được thực hiện một cách nhất quán theo thuật toán, thay vì theo sự thay đổi tâm trạng của người thử nghiệm).

Kết quả làm sai lệch hoàn toàn là phản đối trên cơ sở triết học, nhận thức luận và đạo đức.

Có thể có một số trường hợp giảm nhẹ, liên quan đến cách sử dụng kết quả. Ví dụ, giả sử rằng sự thay thế các ngoại lệ này bằng trung bình hiện tại là một phần của thuật toán của một số máy tính nhúng, cho phép nó thực hiện một hệ thống điều khiển vòng kín. (Nó lấy mẫu một số đầu ra hệ thống, sau đó điều chỉnh đầu vào để đạt được kiểm soát.) Mọi thứ đều là thời gian thực, và do đó, một cái gì đó phải được cung cấp trong một khoảng thời gian nhất định ở nơi thiếu dữ liệu. Nếu fudging này giúp khắc phục sự cố, và đảm bảo hoạt động trơn tru, thì tất cả đều tốt.

Đây là một ví dụ khác, từ điện thoại kỹ thuật số: PLC (che giấu mất gói). Crap xảy ra, và các gói bị mất, nhưng giao tiếp là thời gian thực. PLC tổng hợp các đoạn giọng nói giả dựa trên thông tin cao độ gần đây từ các gói được nhận chính xác. Vì vậy, nếu một người nói đang nói nguyên âm "aaa" và sau đó một gói bị mất, PLC có thể đệm gói bị thiếu bằng cách ngoại suy "aaa" trong thời lượng khung hình (giả sử 5 hoặc 10 mili giây hoặc bất cứ điều gì). "Aaa" giống như giọng nói của người nói. Điều này tương tự với việc sử dụng "trung bình" để thay thế cho các giá trị được coi là xấu. Đó là một điều tốt; nó tốt hơn âm thanh cắt vào và ra, và giúp cho sự thông minh.

Nếu sự xáo trộn dữ liệu là một phần của chương trình nói dối với mọi người để che đậy công việc thất bại, thì đó là một điều khác.

Vì vậy, chúng ta không thể nghĩ về nó một cách độc lập với ứng dụng: làm thế nào các số liệu thống kê được sử dụng? Thay thế sẽ dẫn đến kết luận không hợp lệ? Có ý nghĩa đạo đức?


Câu chuyện điện thoại rất thú vị, nhưng có vẻ như vấn đề nội suy có thể phòng thủ để thay thế các giá trị còn thiếu. Kết nối với thay thế ngoại lệ là khó khăn, vì chỉ cần các hoạt động cục bộ đơn thuần và các thay đổi cục bộ là thứ yếu để "phân tích" toàn bộ dữ liệu.
Nick Cox

2
Rất nhiều ý tưởng thú vị ở đây (+1). Tuy nhiên, lưu ý rằng quy trình thay thế không nhất thiết phải tuần tự. Người ta có thể xác định tất cả các "ngoại lệ" cùng một lúc và thay thế tất cả chúng bằng giá trị trung bình của phần còn lại. Đây là một thủ tục nhất quán không giống như Winsorizing.
whuber

6

Bài viết này của Cousineau và Chartier thảo luận về việc thay thế các ngoại lệ bằng trung bình

http://www.redalyc.org/pdf/2990/299023509004.pdf

Họ viết:

Tabachnick và Fidell (2007) đã đề xuất thay thế dữ liệu bị thiếu bằng giá trị trung bình của dữ liệu còn lại trong ô tương ứng. Tuy nhiên, thủ tục này sẽ có xu hướng làm giảm sự lây lan của dân số, làm cho phân phối quan sát được nhiều leptokurtic hơn và có thể làm tăng khả năng xảy ra lỗi loại I. Một kỹ thuật phức tạp hơn, nhiều lần cắt bỏ, liên quan đến việc thay thế các ngoại lệ (hoặc dữ liệu bị thiếu) bằng các giá trị có thể (Elliott & Stettler, 2007; Serfling & Dang, 2009).

Ngoài ra còn có một gói "ngoại lệ" có chức năng thay thế các ngoại lệ bằng giá trị trung bình. Tôi cũng thấy một số lượt truy cập trong tìm kiếm Google của mình ngụ ý rằng SPSS cũng có chức năng như vậy, nhưng tôi không quen với chương trình đó. Có lẽ nếu bạn làm theo các chủ đề, bạn có thể khám phá cơ sở kỹ thuật cho thực hành.

Tài liệu tham khảo

  • Cousineau, D., & Chartier, S. (2010). Outliers phát hiện và điều trị: một đánh giá. Tạp chí nghiên cứu tâm lý quốc tế, 3 (1), 58-67.

Tôi đã tìm kiếm tài liệu tham khảo của bạn cho tất cả các lần xuất hiện của từ "có nghĩa" và không thể tìm thấy nơi nào nó thảo luận về việc thay thế các ngoại lệ bằng trung bình. Nếu tôi bỏ lỡ điều gì đó, bạn có thể chỉ ra chính xác hơn nơi cuộc thảo luận này xảy ra không?
whuber

1
Tôi đã thay đổi liên kết vì tôi không thể làm cho nó hoạt động. Trên trang 9 của tài liệu, tác giả nói rằng "Các ngoại lệ rõ ràng là kết quả của một hoạt động giả nên được loại bỏ. Tuy nhiên, trong các thiết kế đa biến, làm như vậy có thể dẫn đến việc loại bỏ quá nhiều người tham gia đến mức không thể thực hiện phân tích . Tabachnick và Fidell (2007) đã đề nghị thay thế dữ liệu bị thiếu bằng giá trị trung bình của dữ liệu còn lại trong ô tương ứng. "
Thomas

2
Cảm ơn: Tôi thấy nó bây giờ. Tuy nhiên, mô tả đây là một "thảo luận" - điều này cho thấy có thể có sự cân bằng của ưu và nhược điểm - có thể được phần nào gây hiểu lầm, bởi vì đoạn văn này đề cập đến các thủ tục trung bình-thay thế (a) chỉ dành cho các ứng dụng đa biến và (b) chỉ để chỉ ra khuyết điểm của nó, thay vào đó là một gợi ý để xem xét nhiều lần cắt bỏ. (Thật thú vị, tài liệu tham khảo của bài viết về thủ tục này thậm chí không xuất hiện trong thư mục của nó.)
whuber

5
Vâng, thật kỳ lạ khi tài liệu tham khảo được trích dẫn không có trong bib. Nó dường như là cuốn sách "Thiết kế thử nghiệm sử dụng ANOVA." Tôi đã cố gắng đáp ứng yêu cầu ban đầu và cung cấp tài liệu tham khảo cho việc thực hành thay thế giá trị trung bình cho các ngoại lệ. Bài báo đó là tất cả những gì tôi có thể tìm thấy trong một tìm kiếm nhanh và tôi hy vọng nó có thể cung cấp khách hàng tiềm năng để OP có thể tìm thấy câu trả lời đầy đủ hơn.
Thomas

4

Điều chính cần ghi nhớ khi giao dịch với các ngoại lệ là liệu họ có cung cấp thông tin hữu ích hay không. Nếu bạn mong đợi chúng xảy ra một cách thường xuyên thì việc loại bỏ chúng khỏi dữ liệu sẽ đảm bảo rằng mô hình của bạn sẽ không bao giờ dự đoán chúng. Tất nhiên, nó phụ thuộc vào những gì bạn muốn mô hình làm nhưng điều đáng ghi nhớ là bạn không nhất thiết phải bỏ chúng. Nếu chúng chứa thông tin quan trọng, bạn có thể muốn xem xét một mô hình có thể giải thích cho chúng. Một cách đơn giản để làm điều đó là lấy nhật ký của các biến, có thể giải thích cho các mối quan hệ pháp luật quyền lực. Ngoài ra, bạn có thể sử dụng một mô hình chiếm chúng với phân phối lỗi có đuôi.

Nếu bạn muốn cắt chúng ra thì các cách thông thường là bỏ chúng hoặc Winsorise chúng để loại bỏ các giá trị cực đoan. Tôi không có sách giáo khoa trong tay nhưng các liên kết Wiki ở đó có đề cập đến một số nếu bạn muốn đọc thêm. Hầu hết các văn bản về thống kê áp dụng nên có một phần về ngoại lệ.


3

Tôi biết hai cách tiếp cận tương tự có liên quan trong thống kê.

  • Phương tiện được cắt xén: khi tính toán giá trị trung bình, bạn bỏ các quan sát nhỏ nhất và lớn nhất về dữ liệu của mình (ví dụ: mỗi phần trên và dưới ; bạn nên thực hiện điều này một cách đối xứng!)1
  • Winsorization: tương tự như trung bình cắt, bạn chỉ sửa đổi các quan sát cực đoan. Tuy nhiên, thay vì thả chúng, bạn thay thế chúng bằng quan sát không cực lớn nhất / nhỏ nhất. Điều này thường hoạt động tốt hơn một chút so với cắt tỉa.

Để biết ví dụ chi tiết hơn, xem Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Lưu ý rằng điều này hoạt động tốt cho một số thống kê như khi tính toán giá trị trung bình. Giá trị trung bình được cắt / thắng thường là ước tính tốt hơn về giá trị trung bình thực so với trung bình số học. Trong các trường hợp khác, nó có thể làm hỏng số liệu thống kê của bạn. Ví dụ khi tính toán phương sai, việc cắt xén sẽ luôn đánh giá thấp phương sai thực sự của bạn. Winsorization, giả sử rằng thực sự một số quan sát cực đoan bị lỗi, sau đó sẽ hoạt động tốt hơn một chút (có lẽ nó vẫn sẽ đánh giá thấp, nhưng không nhiều như vậy).

Tôi không thấy cách thay thế các giá trị cực đoan bằng giá trị trung bình sẽ phù hợp ở đây.

Tuy nhiên, có một thực tiễn khác có liên quan: thiếu giá trị . Giả sử rằng ngoại lệ của bạn là thiếu sót, dữ liệu vô giá trị, vì vậy bạn loại bỏ nó. Sau đó, khi bạn thực hiện cắt bỏ, một giá trị thay thế điển hình sẽ là giá trị trung bình hoặc chế độ:

https://en.wikipedia.org/wiki/Imputation_%28statistic%29


1
Cắt tỉa không đối xứng là một chiến thuật đã biết và phòng thủ.
Nick Cox

2

Cách tiếp cận truyền thống để xử lý các ngoại lệ là chỉ cần loại bỏ chúng sao cho mô hình của bạn chỉ được đào tạo về dữ liệu "tốt".

Hãy nhớ rằng giá trị trung bình bị ảnh hưởng bởi sự hiện diện của những ngoại lệ đó. Nếu bạn thay thế các ngoại lệ bằng giá trị trung bình được tính sau khi các ngoại lệ được xóa khỏi tập dữ liệu của bạn , điều đó sẽ không có gì khác biệt vì đường hồi quy (từ hồi quy tuyến tính đơn giản) sẽ chuyển qua trung bình của dữ liệu huấn luyện của bạn (điều này sẽ làm giảm phương sai của bạn ước tính mặc dù, có lẽ trái ngược với những gì bạn muốn đưa ra mà bạn biết có những ngoại lệ).

Hiệu quả mà cách tiếp cận của bạn sẽ có trên mô hình phụ thuộc vào ảnh hưởng (đòn bẩy) của ngoại lệ. Tôi khuyên bạn nên chống lại cách tiếp cận mà bạn đề xuất thay vì chỉ xóa điểm hoàn toàn.


4
Việc xóa dữ liệu sẽ gây ra sai lệch trừ khi quy trình xóa là khách quan và quy trình tương tự sẽ được áp dụng cho tất cả dữ liệu trong tương lai mà dự đoán thu được.
Frank Harrell

0

vâng, các ngoại lệ có thể được thay thế bằng các hình thức có thể, ví dụ: hãy lấy tập hợp dữ liệu về kích thước của Chiều cao con người, giả sử chúng ta có một số ngoại lệ như 500 cm và 400 cm sau đó, chúng ta có thể thay thế các điểm dữ liệu đó xuất hiện trong bộ dữ liệu vì một số lỗi đã gây ra trong quá trình ghi dữ liệu. vì vậy các tùy chọn bạn có thể thử là 1. thay thế nó bằng màu trung bình của toàn bộ dữ liệu (không phải giá trị trung bình, vì nó dễ bị ngoại lệ). 2. thay thế bằng điểm dữ liệu Xảy ra nhiều nhất trong Cột. 3. Nếu giá trị Thể loại thì bạn có thể thử mã hóa Phản hồi (trong đó bạn Ghi lại Xác suất của từ hoặc các giá trị xảy ra theo tổng số từ)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.