Trong dữ liệu sai lệch trái, mối quan hệ giữa trung bình và trung bình là gì?


12

Tôi nghĩ rằng trung bình có nghĩa.

Đây có phải là trường hợp?


2
Mà khóa học MOOC mở đó là gì? Tài liệu khóa học gợi ý câu trả lời nên là gì?
Glen_b -Reinstate Monica


1
Cảm ơn, đó là một số bối cảnh ít nhất, mặc dù tất cả những gì còn lại có những bài đọc hàng tuần không làm sáng tỏ vấn đề này. Tôi tự hỏi những gì các khóa học đã nói về chủ đề này.
Glen_b -Reinstate Monica

Câu trả lời:


16

Đó là một câu hỏi không cần thiết (chắc chắn không tầm thường như những người hỏi câu hỏi dường như nghĩ).

Khó khăn cuối cùng là do thực tế là chúng ta không thực sự biết ý nghĩa của chúng ta về "sự sai lệch" - rất nhiều lúc nó là điều hiển nhiên, nhưng đôi khi nó thực sự không. Do khó khăn trong việc xác định ý nghĩa của chúng tôi về 'vị trí' và 'lan truyền' trong các trường hợp không cần thiết (ví dụ: ý nghĩa không phải lúc nào cũng có nghĩa là khi chúng tôi nói về vị trí), sẽ không có gì ngạc nhiên khi một người tinh tế hơn khái niệm như xiên ít nhất là trơn. Vì vậy, điều này dẫn chúng ta thử các định nghĩa đại số khác nhau về ý nghĩa của chúng ta và chúng không luôn đồng ý với nhau.

1) Nếu bạn đo độ lệch của hệ số Pearson thứ hai độ lệch , sau đó giá trị trung bình ( ) sẽ ít hơn so với mức trung bình ( ~ μ - tức là trong trường hợp này bạn có nó ngược).μμ

Các (dân số) thứ hai Pearson độ lệch là Và sẽ được tiêu cực ( "trái nghiêng") khi μ < ~ μ .

3(μμ)σ,
μ<μ~

Các phiên bản mẫu của các thống kê này hoạt động tương tự.

Lý do cho mối quan hệ cần thiết giữa giá trị trung bình và trung bình trong trường hợp này là bởi vì đó là cách đo độ lệch được xác định.

Đây là mật độ lệch trái (bằng cả biện pháp Pearson thứ hai và biện pháp phổ biến hơn trong (2) bên dưới):

nhập mô tả hình ảnh ở đây

Trung vị được đánh dấu ở lề dưới màu xanh lá cây, trung bình màu đỏ.

Vì vậy, tôi mong đợi câu trả lời họ muốn bạn đưa ra là giá trị trung bình ít hơn trung bình. Nó thường là trường hợp với các loại phân phối mà chúng ta có xu hướng đặt tên.

(Nhưng hãy đọc tiếp và xem tại sao điều đó không thực sự đúng như một tuyên bố chung.)


2) Nếu bạn đo nó bằng khoảnh khắc thứ ba được chuẩn hóa thông thường hơn , thì nó thường, nhưng không phải lúc nào cũng vậy, trường hợp giá trị trung bình sẽ nhỏ hơn trung vị.

Đó là, có thể xây dựng các ví dụ trong đó điều ngược lại là đúng hoặc trong đó một số đo độ lệch bằng 0 trong khi số kia là khác không.

Điều đó có nghĩa là, không có mối quan hệ cần thiết giữa các vị trí của giá trị trung bình, trung bình và độ lệch.

Ví dụ, xem xét mẫu sau (ví dụ tương tự có thể được xây dựng dưới dạng phân phối xác suất rời rạc):

  2.7 15.0 15.0 15.0 30.0 30.0

mean: 17.95
median: 15

Tuy nhiên, hệ số xiên (Fisher, giây thứ ba) là âm (tức là bằng đèn của nó, chúng ta có dữ liệu lệch trái) do tổng các khối của độ lệch so với giá trị trung bình là âm.

Vì vậy, trong trường hợp đó, nghiêng trái, nhưng có nghĩa là> trung vị.

(Mặt khác, nếu bạn thay đổi 2,7 trong ví dụ trên thành 3, thì bạn có một ví dụ trong đó độ lệch thời điểm bằng 0, nhưng giá trị trung bình vượt quá trung bình. Nếu bạn làm cho nó 3,3, thì độ lệch thời điểm là dương và giá trị trung bình vượt quá trung vị - nghĩa là cuối cùng theo hướng 'dự đoán'.)

Nếu bạn sử dụng độ lệch Pearson đầu tiên thay vì một trong hai định nghĩa trên, bạn có một vấn đề tương tự với trường hợp này - hướng của độ lệch không xác định mối quan hệ giữa trung bình và trung bình nói chung.


Chỉnh sửa: trong câu trả lời cho một câu hỏi trong các bình luận - một ví dụ trong đó giá trị trung bình và trung bình bằng nhau, nhưng độ lệch thời gian là âm. Hãy xem xét các dữ liệu sau đây (như trước đây, nó cũng được tính là một ví dụ cho một dân số rời rạc; xem xét việc viết các số trên khuôn mặt của một con súc sắc).

 1  5  6  6  8 10

giá trị trung bình và trung vị đều là 6, nhưng tổng các khối sai lệch so với giá trị trung bình là âm, vì vậy độ lệch của giây thứ ba là âm.


1
@Peter Xin lỗi vì trả lời chậm, tôi bận xây dựng những ví dụ như vậy và không thấy câu hỏi của bạn.
Glen_b -Reinstate Monica

2
Tôi đã thấy rất nhiều định nghĩa trong sách giáo khoa và không ai đề cập đến điều này. Mát mẻ.
Peter Flom - Tái lập Monica

6
@Peter Thật không may, rất nhiều sách giáo khoa cơ bản chỉ đơn giản lặp lại thông tin không chính xác từ các sách giáo khoa khác mà không thực sự tự điều tra thực sự, và vì vậy một quan niệm sai lầm cơ bản được lan truyền. Counterexamples, như bạn thấy, tương đối dễ xây dựng (tôi chỉ cần làm chúng bằng tay khi cần thiết). Kendall và Stuart ( Lý thuyết thống kê nâng cao, Tập I - đừng để tiêu đề làm bạn thất vọng, nó khá dễ đọc), ít nhất là phiên bản thứ ba và thứ tư, có thông tin tốt. Các phiên bản gần đây là của Stuart và Ord. Tôi thực sự đã đăng về vấn đề này trên CV một số lần.
Glen_b -Reinstate Monica

4
(5k)0.8k0.25k(5k)0.2k0.85k=

1
@Nick Có, nhị thức với số nguyên có nghĩa là những ví dụ tuyệt vời.
Glen_b -Reinstate Monica

5

Không. Dữ liệu lệch trái có đuôi dài ở bên trái (đầu thấp) nên giá trị trung bình thường sẽ nhỏ hơn trung vị. (Nhưng hãy xem câu trả lời của @Glen_b để biết ngoại lệ). Tình cờ, tôi nghĩ rằng dữ liệu "trông" bị lệch sẽ có nghĩa ít hơn trung bình.

Dữ liệu lệch phải là phổ biến hơn; ví dụ, thu nhập. Có nghĩa là lớn hơn trung bình.

Mã R

set.seed(123)  #set random seed
normdata <- rnorm(1000) #Normal data, skew = 0
extleft <- c(rep(-10, 5), rep(-20, 5)) #Some data to make skew left
alldata <- c(normdata,extleft)

library(moments)
skewness(alldata) #-6.77
mean(alldata) #-0.13
median(alldata) #-0.001

Giá trị trung bình có thể bằng với trung vị không?
Kunjan Kshetri

unj2 Tôi đã thêm một ví dụ vào câu trả lời của mình trong đó độ lệch của giây thứ ba là âm nhưng mean = median.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.