Cái nào tốt hơn, thay thế bằng trung bình và thay thế bằng trung vị?


9

Tôi đang thực hiện một dự án liên quan đến việc thay thế các giá trị bị thiếu trong một tập hợp dữ liệu (lần đầu tiên thực hiện việc này). Điều này liên quan đến việc sử dụng hai phương pháp replacement by meanreplacement by medianđiền vào các giá trị còn thiếu. Không có nhiều sự khác biệt giữa kết quả của độ lệch tối thiểu, trung bình, tối đa, trung bình và độ lệch chuẩn của dữ liệu bằng cả hai phương pháp và tôi đã tự hỏi phương pháp nào tốt hơn và làm thế nào tôi có thể đưa ra quyết định sử dụng phương pháp nào tốt hơn kết quả tạo ra?


2
Nếu bạn thay thế các sai lầm bằng phương tiện, tự nhiên trung bình được bảo tồn. Trung bình Ditto. Các thái cực cũng sẽ không thay đổi. Các SD thường sẽ được giảm nhẹ, nhưng nó sẽ giảm đi rất nhiều nếu bạn làm điều này nhiều. Đây là những hậu quả có thể dự đoán những gì bạn làm và không đương nhiên dấu hiệu cho thấy phương pháp này là tốt.
Nick Cox

Các nhà phân tích cắm các giá trị còn thiếu (MV) bằng các "giải pháp" tự động như thế này không nghĩ đến hậu quả. Đó chỉ là một cách tiếp cận dễ dàng thực hiện. "Giải pháp" này đưa ra nhiều vấn đề như nó giải quyết được vì một pdf thông thường khác kết thúc với một sự tăng đột biến lớn ở giá trị được cắm, như một chức năng của số lượng MV, tất nhiên. Các biện pháp dựa trên mô hình là vượt trội hơn hẳn và ít sai lệch hơn bất kỳ phương pháp tự động nào. @NickCox không thể không biết gì về điều này, bất chấp những gì anh ấy gợi ý.
Mike Hunter

1
: @DJohnson ... không phải ipso facto cho thấy phương pháp này tốt. Không đủ rõ ràng?
Nick Cox

Các giá trị phân loại thường được quy định với chế độ vì nó đại diện cho giá trị phổ biến nhất cho cột đã cho.
Sandeep Kar

Câu trả lời:


9

Nó luôn phụ thuộc vào dữ liệu và nhiệm vụ của bạn.

Nếu có một tập dữ liệu có các ngoại lệ tuyệt vời, tôi sẽ thích trung bình hơn. Ví dụ: 99% thu nhập hộ gia đình dưới 100 và 1% trên 500.

Mặt khác, nếu chúng tôi làm việc với quần áo mà khách hàng đưa cho máy giặt khô (giả sử rằng người vận hành máy giặt khô lấp đầy lĩnh vực này bằng trực giác), tôi sẽ lấp đầy những sai sót với giá trị trung bình của quần áo.

Tốt hơn là bắt đầu từ sự hiểu biết dữ liệu và sau đó bài viết này sẽ là điểm khởi đầu hữu ích.


Dữ liệu tôi đang sử dụng có thể nằm trong khoảng từ 0 đến 1 và tôi đã tạo ra các biểu đồ có giới hạn từ 0,1,0,2,0,3 ... đến 1. Bởi vì tôi có nhiều giới hạn khác nhau và các nhà phác thảo có thể nói rằng giá trị trung bình là tốt nhất?
Jake MB

@ JakeM-B, thật khó để đưa ra lời khuyên tốt, khi tôi không truy cập trực tiếp vào và lịch sử của dữ liệu. Thường thiếu giá trị trong dữ liệu có nghĩa là giá trị phải bằng 0 (hoặc một cái gì đó khác làm mặc định). Về vị trí của bạn (nếu không có sự khác biệt lớn giữa trung bình và trung bình), tôi sẽ thử cả hai và kiểm tra xem nó ảnh hưởng đến kết quả như thế nào.
Aleksandro M Granda

6

Imputation là một phương tiện cho một mục tiêu, bản thân nó không phải là mục tiêu. Trong một số trường hợp, thay thế dữ liệu bị thiếu có thể là điều sai. Hãy chắc chắn rằng trước tiên bạn chú ý đến lý do tại sao dữ liệu của bạn bị thiếu, như được giải thích ví dụ trong trang Wikipedia thiếu dữ liệu và việc cắt bỏ đó thực sự phù hợp để trả lời câu hỏi mà dự án của bạn tìm cách trả lời.

Nếu một số giả định được đáp ứng (ví dụ: nếu xác suất của biến có giá trị bị thiếu không phụ thuộc vào chính giá trị đó, về mặt kỹ thuật được gọi là "mất ngẫu nhiên") và nghiên cứu của bạn liên quan đến nhiều biến, bạn có thể sử dụng nhiều biến số tốt hơn thay vì thay thế bằng phương tiện hoặc trung bình. Trong nhiều lần cắt bỏ, các giá trị đã biết của tất cả các biến được sử dụng để cung cấp một số bộ ước tính của dữ liệu bị thiếu. Cách tiếp cận này có thể cung cấp các ước tính tốt hơn cả về mối quan hệ cơ bản giữa các biến và độ tin cậy của các ước tính của bạn. Xem câu hỏi trên trang web này có multiple-imputationthẻ để biết thêm thông tin.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.