Làm thế nào để biết phân phối dữ liệu của tôi là đối xứng?


23

Tôi biết rằng nếu trung bình và giá trị trung bình xấp xỉ bằng nhau thì điều này có nghĩa là có sự phân bố đối xứng nhưng trong trường hợp cụ thể này tôi không chắc chắn. Giá trị trung bình và trung bình khá gần nhau (chỉ chênh lệch 0,87m / gallon) sẽ khiến tôi phải nói rằng có sự phân bố đối xứng nhưng nhìn vào ô vuông, có vẻ như nó hơi lệch một cách tích cực (trung vị gần với Q1 hơn quý 3 như đã xác nhận theo các giá trị).

(Tôi đang sử dụng Minitab nếu bạn có bất kỳ lời khuyên cụ thể nào cho phần mềm này.)


Nhận xét trực giao về một chi tiết: đơn vị nào là m / gall? Trông giống như mét trên mỗi gallon, và tôi tò mò.
Nick Cox

Đây là một hạn chế nghiêm trọng ở đây rằng các ô vuông thường không hiển thị nghĩa là gì cả!
Nick Cox

Độ lệch chuẩn của dữ liệu của bạn là gì? Nếu giá trị 0.487m / gallon nhỏ hơn nhiều so với độ lệch chuẩn của bạn thì có lẽ bạn có lý do để tin rằng phân phối của bạn có thể đối xứng. Nếu giá trị đó lớn hơn nhiều so với độ lệch chuẩn của bạn (hoặc MAD hoặc bất kỳ độ lệch nào bạn nhìn vào) có lẽ việc kiểm tra tính đối xứng của phân phối hơn nữa là mất thời gian.
usεr11852 nói Phục hồi Monic

1
70,63,56,49,42,35,28,21,14,7,0,1,4,9,16,25,36,49,64,81,100 là cố tình không đối xứng (đồng nhất ở nửa dưới nhưng không ở nửa trên) và một ô hình hộp sẽ đặt trung vị (bằng giá trị trung bình) gần phần tư trên so với phần tư dưới nhưng cũng gần tối thiểu hơn mức tối đa.
Henry

@NickCox nó cũng có thể là milligal với một lỗi đánh máy. Đó sẽ là gần 500 gal! Hoặc ít hơn g. (Tất nhiên như đã lưu ý ở trên, không có một số thang phân tán như MAD, không có cách nào để biết điều gì có thể là "đáng kể".)μ104
GeoMatt22

Câu trả lời:


29

Không có nghi ngờ bạn đã được nói khác, nhưng mean median không ngụ ý đối xứng.=

Có một thước đo độ lệch dựa trên trung bình trừ trung bình (độ lệch Pearson thứ hai), nhưng có thể là 0 khi phân phối không đối xứng (giống như bất kỳ biện pháp độ lệch phổ biến nào).

Tương tự, mối quan hệ giữa trung bình và trung bình không nhất thiết ngụ ý mối quan hệ tương tự giữa midriale ( ) và trung vị. Họ có thể đề xuất độ lệch ngược nhau, hoặc người này có thể bằng trung bình trong khi người kia thì không.(Q1+Q3)/2

Một cách để điều tra tính đối xứng là thông qua một biểu đồ đối xứng *.

Nếu là các quan sát được sắp xếp theo thứ tự từ nhỏ nhất đến lớn nhất (thống kê đơn hàng) và là trung tuyến, thì một đồ thị đối xứng vs , vs , ... vân vân. M Y ( n ) - M M - Y ( 1 ) Y ( n - 1 ) - M M - Y ( 2 )Y(1),Y(2),...,Y(n)MY(n)-MM-Y(1)Y(n-1)-MM-Y(2)

* Minitab có thể làm những điều đó . Quả thực tôi nâng cao cốt truyện này như một khả năng vì tôi đã thấy chúng được thực hiện trong Minitab.

Dưới đây là bốn ví dụ:

Lô đối xứng
Các ô đối xứng thuộc loại trên cho các mẫu từ bốn bản phân phối

(Các bản phân phối thực tế là (trái sang phải, hàng trên cùng trước) - Laplace, Gamma (hình dạng = 0,8), beta (2,2) và beta (5,2). Mã là của Ross Ihaka, từ đây )

Với các ví dụ đối xứng đuôi nặng, thường thì các điểm cực đoan nhất có thể ở rất xa; bạn sẽ ít chú ý đến khoảng cách từ đường thẳng của một hoặc hai điểm khi bạn ở gần trên cùng bên phải của hình.

Tất nhiên, có những âm mưu khác (tôi đã đề cập đến cốt truyện đối xứng không phải từ ý thức vận động cụ thể của cái đó, nhưng vì tôi biết nó đã được thực hiện trong Minitab). Vì vậy, hãy khám phá một số người khác.

Đây là những xiên tương ứng mà Nick Cox gợi ý trong các bình luận:

Âm mưu
Skewness âm mưu theo đề xuất của Nick Cox trong các bình luận

Trong các ô này, một xu hướng tăng sẽ chỉ ra một cái đuôi bên phải nặng hơn bên trái và một xu hướng xuống sẽ chỉ ra một cái đuôi bên trái nặng hơn so với bên phải, trong khi đối xứng sẽ được đề xuất bởi một âm mưu tương đối phẳng (mặc dù có lẽ khá ồn ào).

Nick gợi ý rằng cốt truyện này tốt hơn (cụ thể là "trực tiếp hơn"). Tôi có khuynh hướng đồng ý; Do đó, việc giải thích cốt truyện có vẻ dễ dàng hơn một chút, mặc dù thông tin trong các ô tương ứng thường khá giống nhau (sau khi bạn trừ độ dốc đơn vị trong tập đầu tiên, bạn sẽ có được thứ gì đó rất giống với tập thứ hai).

[Tất nhiên, không ai trong số những điều này sẽ cho chúng ta biết rằng phân phối dữ liệu được rút ra là thực sự đối xứng; chúng ta có một dấu hiệu cho thấy mẫu gần như đối xứng như thế nào, và đến mức đó chúng ta có thể đánh giá liệu dữ liệu có phù hợp một cách hợp lý với việc được rút ra từ một quần thể gần đối xứng hay không.]


3
@ user72943 Nếu bạn hoàn toàn hài lòng với nó, đừng quên quay lại và chọn câu trả lời của Glen_b. Bạn có thể muốn chờ một lát để xem ai đó gửi câu trả lời tốt hơn, nhưng Glen_b sẽ nhận được nhiều tín dụng hơn nếu bạn chấp nhận câu trả lời.
Wayne

3
+1, nhưng ngụy biện. Tôi tìm thấy một biểu đồ (lượng tử trên lượng tử thấp hơn) / 2 so với (lượng tử trên lượng tử thấp hơn) trực tiếp hơn so với biểu đồ đối xứng ở đây. Đối với định lượng đọc thống kê nếu muốn. Tình huống tham chiếu là một phân bố đối xứng, trong đó trung bình của các lượng tử được ghép đều bằng trung bình, do đó, một phân bố đối xứng vẽ thành một đường thẳng. Cả hai sự không đối xứng nhẹ và được đánh dấu đều dễ dàng nhận ra, như (ví dụ) đối xứng gần đúng ở giữa và các ngoại lệ được đánh dấu ở một hoặc cả hai đuôi. -+-
Nick Cox

6
+1 Trong EDA , John Tukey chỉ đơn giản là vẽ một chuỗi các midranges. Đây là các giá trị cho một chuỗi các chỉ số được chọn cẩn thận (xấp xỉ , v.v. ). Trong một số cách, cốt truyện này tốt hơn so với các ô đối xứng trong khi nó lọc ra quá nhiều chi tiết và giúp người xem tập trung vào cách đối xứng (hoặc thiếu nó) thay đổi khi một người di chuyển ra khỏi đuôi. Nó có thêm lợi ích là có thể tính toán được ngay lập tức và dễ dàng một khi có bản tóm tắt n chữ cái, trong đó có thể được đọc trực tiếp từ một âm mưu gốc và lá. (Y(n+1-tôi)+Y(tôi))/2tôin/2,n/4,n/số 8
whuber

1
@whuber và tôi đang nói về cùng một ý tưởng cơ bản. Sự khác biệt là giữa âm mưu tất cả các thống kê đơn hàng được ghép nối (không thực tế rất gây mất tập trung) hoặc âm mưu chỉ là một số.
Nick Cox

1
Tài liệu tham khảo trong stata-journal.com/sjpdf.html?articlenum=gr0003 và cho người dùng Stata trong tài liệu cho skewplot(SSC). Ý tưởng quay trở lại ít nhất là một gợi ý được gán cho JW Tukey ở Wilk, MB và Gnanadesikan, R. 1968. Phương pháp xác định âm mưu để phân tích dữ liệu. Sinh trắc học 55: 1-17.
Nick Cox

6

Cách dễ nhất là tính độ lệch mẫu . Có một chức năng trong Minitab cho điều đó. Các phân phối đối xứng sẽ có độ lệch bằng không. Độ lệch không nhất thiết không có nghĩa là đối xứng, nhưng trong hầu hết các trường hợp thực tế, nó sẽ như vậy.

Như @NickCox đã lưu ý, có nhiều hơn một định nghĩa về độ lệch. Tôi sử dụng một cái tương thích với Excel , nhưng bạn có thể sử dụng bất kỳ cái nào khác.


2
Tôi nghĩ rằng điều này cần đánh vần ra. Đặc biệt, không có thứ gọi là "sự lệch lạc". Có rất nhiều biện pháp và thậm chí những biện pháp không phổ biến thường hữu ích hoặc thú vị như những biện pháp thông thường (ví dụ: L-khoảnh khắc). Những cám dỗ để về chuẩn thời điểm thứ ba như các biện pháp (và đó là mặc định của tôi, quá) nên lưu ý rằng cho Karl Pearson, và đối với nhiều tác giả khác cũng vào thế kỷ 20, độ lệch được thường xuyên nhất đo tương đối so với chế độ.
Nick Cox

Bất kỳ hệ số sai lệch nào, ngoài việc không có nhiều sức mạnh để phát hiện sự bất cân xứng (như bạn nhận xét chính xác), còn phải chịu đựng (cực kỳ) không mạnh mẽ, bởi vì nó dựa trên khoảnh khắc mẫu thứ ba. Ngoài ra, do tính đối xứng có thể bị vi phạm theo nhiều cách (và thú vị), một đặc tính số đối xứng duy nhất là sự thay thế kém cho chẩn đoán đồ họa phong phú hơn được mô tả trong tài liệu phân tích dữ liệu khám phá.
whuber

1

Căn giữa dữ liệu của bạn quanh 0 bằng cách trừ đi giá trị trung bình mẫu. Bây giờ chia dữ liệu của bạn thành hai phần, tiêu cực và tích cực. Lấy giá trị tuyệt đối của các điểm dữ liệu âm. Bây giờ làm một thử nghiệm Kolmogorov - Smirnov hai mẫu bằng cách so sánh hai phân vùng với nhau. Đưa ra kết luận của bạn dựa trên giá trị p.


0

Đặt các quan sát của bạn được sắp xếp theo các giá trị tăng dần trong một cột, sau đó đặt chúng được sắp xếp theo các giá trị giảm dần trong một cột khác.
Sau đó tính hệ số tương quan (gọi nó là Rm) giữa hai cột này.
Tính chỉ số choper: CHI = (1 + Rm) / 2.
CHI lấy các giá trị trong khoảng [0..1].
CHI là null NẾU và CHỈ NẾU mẫu của bạn được phân phối đối xứng.
Không cần khoảnh khắc thứ ba.
Lý thuyết:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(hầu hết các giấy tờ được trích dẫn trong hai trang này có thể tải về có trong pdf)
Hy vọng nó giúp đỡ, thậm chí gần đây.


Sẽ không tương quan, Rm, nhất thiết phải là tiêu cực? Tôi không thấy CHI có thể là 1 trừ khi Rm là 1, nhưng vì col1 được sắp xếp tăng & col2 được sắp xếp giảm dần, RM <= 0, có nghĩa là CHI sẽ lấy các giá trị trong [0, .5]. Tui bỏ lỡ điều gì vậy?
gung - Phục hồi Monica

Có Rm không thể dương và CHI không thể vượt quá 1/2 cho phân phối biến ngẫu nhiên lấy giá trị trên dòng thực. Trong thực tế, giới hạn trên 1 xuất phát từ lý thuyết chung giới thiệu chỉ số chirus. Nó có ý nghĩa cho việc phân phối các biến ngẫu nhiên lấy các giá trị trong một không gian tổng quát hơn. Lý thuyết này nằm ngoài phạm vi của cuộc thảo luận hiện tại, nhưng nó được trình bày trong hai trang web mà tôi đã đề cập trước đây.
Petitjean

Vui lòng đăng ký & / hoặc hợp nhất các tài khoản của bạn (bạn có thể tìm thấy thông tin về cách thực hiện việc này trong phần Tài khoản của tôi trong trung tâm trợ giúp của chúng tôi ), sau đó bạn sẽ có thể chỉnh sửa & nhận xét về câu hỏi của riêng mình.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.