Có nghĩa là SD hoặc Median MAD để tóm tắt một biến bị sai lệch cao?


11

Tôi đang làm việc trên dữ liệu sai lệch cao, vì vậy tôi đang sử dụng trung bình thay vì trung bình để tóm tắt xu hướng trung tâm. Tôi muốn có một biện pháp phân tán Trong khi tôi thường thấy những người báo cáo có nghĩa là độ lệch chuẩn±± ± hoặc trung bình tứ phân vị± để tóm tắt xu hướng trung tâm, là nó ok để báo cáo trung bình trung bình phân tán tuyệt đối (MAD)± ? Có vấn đề tiềm năng với phương pháp này?

Tôi sẽ thấy cách tiếp cận này nhỏ gọn và trực quan hơn so với việc báo cáo các phân vị thấp hơn và cao hơn, đặc biệt là trong các bảng lớn có đầy đủ các số liệu.


3
Tôi nghĩ có nghĩa là, các phân vị trung bình, thấp hơn và trên cùng sẽ mô tả dữ liệu tốt hơn. Bạn có thể tìm thấy một số thống kê mô tả khác ở đây .

1
Tôi muốn ngắn gọn nhất có thể: trung vị + 2 tứ phân vị có ổn không?
Mulone

4
MAD là một số liệu thống kê tốt để thể hiện sự phân tán của một loạt dữ liệu - nó có khả năng chống lại các ngoại lệ thậm chí nhiều hơn phạm vi liên vùng. Nhưng bạn có thể muốn nghĩ về trung bình MAD thực sự có ý nghĩa gì và khán giả của bạn nên diễn giải nó như thế nào. Nó không được hưởng các tính chất bất đẳng thức giống như tiệm cận hoặc Chebeyshev giống như trung bình SD. Đó, có lẽ, là lý do tại sao các biểu thức như vậy hiếm khi, nếu có, được sử dụng. ±±±
whuber

1
Tôi luôn nghĩ MAD có nghĩa là độ lệch tuyệt đối có nghĩa là tương tự với mse có nghĩa là lỗi bình phương. nó là trung bình của độ lệch tuyệt đối so với trung bình không phải là trung vị. Tôi đúng hay tôi đi MAD?
Michael R. Chernick

2
hình ảnh là một ngàn từ, nếu có thể hiển thị biểu đồ là rất mạnh mẽ.
bdeonovic

Câu trả lời:


7

Tôi không nghĩ rằng trung bình mad là thích hợp nói chung. ±

Bạn có thể dễ dàng xây dựng các bản phân phối trong đó 50% dữ liệu thấp hơn một chút so với trung bình và 50% dữ liệu được trải ra lớn hơn nhiều so với trung bình - ví dụ: (4,9,4,9,4,9,4,9,5,1000000,1000000,100000 , 1000000). Ký hiệu 5 0,10 dường như gợi ý rằng có một số lượng lớn xung quanh (trung vị + điên ~ = 5.10), và đó không phải lúc nào cũng như vậy, và bạn không biết rằng có một khối lượng lớn hơn gần 1000000.±

Bộ tứ / lượng tử cung cấp một ý tưởng tốt hơn về phân phối với chi phí của một số phụ - (4.9,5.0.1000000.0). Tôi nghi ngờ đó hoàn toàn là một sự ngẫu nhiên rằng độ lệch là khoảnh khắc thứ ba và dường như tôi cần ba số / chiều để trực quan hóa một phân phối sai lệch.

Điều đó nói rằng, không có gì sai với nó cả - tôi chỉ tranh luận về trực giác và khả năng đọc ở đây. Nếu bạn đang sử dụng nó cho bản thân hoặc nhóm của bạn, hãy phát điên. Nhưng tôi nghĩ rằng nó sẽ gây nhầm lẫn cho một đối tượng rộng.


2
(+1) Tôi muốn nói thêm rằng định nghĩa về độ lệch về thời điểm thứ ba không được chấp nhận nhất hiện nay vì nó chỉ có thể được áp dụng trên các bản phân phối có đuôi nhẹ. Các định nghĩa hiện đại hơn về độ lệch được dựa trên các lượng tử, một số trong số chúng có thể được tìm thấy ở đây .

1
@amoeba Phải không? Trang Wikipedia cho MAD định nghĩa nó là Median (| Xi - Median (X) |), là 0,1 với dữ liệu đã cho.
Upper_Case

@Upper_Case Cảm ơn bạn. Tôi đã sai (quên khoảng 5-5 = 0 hạn). Tôi sẽ xóa bình luận của tôi ở trên để không gây nhầm lẫn cho độc giả trong tương lai!
amip nói rằng Tái lập lại Monica

4

Sử dụng số lượng MAD để giả định rằng phân phối cơ bản là đối xứng (độ lệch trên trung vị và dưới trung vị được coi là bằng nhau). Nếu dữ liệu của bạn bị sai lệch thì điều này rõ ràng là sai: nó sẽ khiến bạn đánh giá quá cao sự biến đổi thực sự của dữ liệu của bạn.

May mắn thay, bạn có thể chọn một trong những phương án thay thế cho mad có sức mạnh tương đương, gần như dễ tính toán và không giả định tính đối xứng.

Hãy xem Rousseeuw và Croux 1992 . Những khái niệm này được giải thích tốt ở đây và thực hiện ở đây . Hai người ước tính này là thành viên của lớp được gọi là lớp thống kê U, trong đó có một lý thuyết phát triển tốt.


1

"Trong bài báo này đã nghiên cứu một chỉ số bất đối xứng chính xác hơn. Cụ thể, việc sử dụng phương sai trái và phải được đề xuất và một chỉ số bất đối xứng dựa trên chúng được đưa ra. Một số ví dụ chứng minh tính hữu dụng của nó. dữ liệu về trung bình xuất hiện trong tất cả các phân phối xác suất không đối xứng. Khi phân bố dân số không đối xứng, trung bình và phương sai (hoặc độ lệch chuẩn) của một tập hợp dữ liệu không cung cấp ý tưởng chính xác về phân phối dữ liệu, đặc biệt là hình dạng và tính đối xứng. Người ta lập luận rằng trung bình, phương sai trái được đề xuất (hoặc độ lệch chuẩn trái) và phương sai phải (hoặc độ lệch chuẩn phải) mô tả tập hợp dữ liệu chính xác hơn. "

Liên kết


3
Bạn đã trích dẫn bản tóm tắt của một bài báo và cung cấp một cái gì đó tương tự như một URL (Tôi có quyền tự do sửa chữa liên kết). Đó thực sự không phải là loại câu trả lời mà chúng tôi đang tìm kiếm ở đây; Tôi khuyến khích bạn chỉnh sửa câu trả lời của bạn và cố gắng thêm một số nhận xét của riêng bạn về lý do tại sao liên kết này giúp trả lời câu hỏi. Câu trả lời sẽ được cải thiện hơn nhiều nếu bạn giải thích làm thế nào chỉ số bất đối xứng này có liên quan đến xu hướng trung tâm trung bình và MAD.
MånsT
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.