Điều chỉnh độ lệch Tại sao có quá nhiều chức năng nghiêng?


9

Tôi hy vọng sẽ có cái nhìn sâu sắc hơn về bốn loại xiên từ cộng đồng này.

Các loại tôi đề cập đến được đề cập trong trang trợ giúp http://www.inside-r.org/packages/cran/e1071/docs/skewness .

Phương pháp cũ không được đề cập trong trang trợ giúp, nhưng dù sao tôi cũng đưa nó vào.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Dưới đây là bài báo mà tác giả của e1071 đề cập đến: http : // onlinel Library.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes và CA Gill (1998), So sánh các biện pháp về độ lệch mẫu và độ nhiễu.

Từ việc tôi đọc bài báo đó, họ cho rằng loại # 3 có ít lỗi nhất.

Dưới đây là ví dụ về độ lệch từ đoạn mã trên:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Tôi cũng nhận thấy rằng tác giả của e1071 đã viết chức năng nghiêng khác với các ghi chú trong trang trợ giúp. Lưu ý sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Bất kỳ ý tưởng tại sao sqrt (n) là trong phương trình đầu tiên? Phương trình nào xử lý tràn / tràn tốt hơn? Bất kỳ ý tưởng khác tại sao chúng khác nhau (nhưng tạo ra kết quả tương tự)?


3
Câu hỏi của bạn đề cập đến "bốn loại xiên" ... nhưng sau đó đưa ra một liên kết và khởi chạy thành một loạt mã (ngôn ngữ mà bạn thậm chí không đề cập đến). Vì vậy, mọi người không cần phải đọc một liên kết để khám phá những gì bạn đang hỏi và vì lợi ích của những người không đọc R và những người tìm đọc mã không có ích trong việc truyền đạt sự hiểu biết, sẽ giúp xác định bốn các biện pháp sai lệch mà bạn muốn nói trước đây (hoặc tốt nhất là thay vì) một mã số. [Khi bạn nói "bốn", thay vì nói "bốn" này, tại sao bạn nghĩ có chính xác bốn chứ không phải năm hoặc bảy hoặc một số khác?]
Glen_b -Reinstate Monica

1
Tôi đã cố gắng đưa ra một số hình thức trả lời cho các câu hỏi cụ thể mà tôi có thể tìm thấy trong bài đăng của bạn và giải quyết một số vấn đề trên đường đi, nhưng bên ngoài đó "hy vọng sẽ có cái nhìn sâu sắc hơn" thì quá mơ hồ để trả lời. Bạn có thể xác định rõ hơn những gì bạn muốn cái nhìn sâu sắc về? Có rất nhiều câu hỏi trên trang web của chúng tôi liên quan đến độ lệch.
Glen_b -Reinstate Monica

Cảm ơn Glen, vì bài viết của bạn. Tôi bao gồm R cho mục đích minh họa và để hiển thị các công thức. Ngoài ra tôi không biết latex. :(
Chris

Câu trả lời:


10

Hãy bắt đầu với một phương pháp mà bạn mô tả là "một phương pháp cũ"; đây là độ lệch Pearson thứ hai, hay độ lệch trung bình ; trong thực tế, độ lệch và đó là cùng một kiểu cổ điển (độ lệch trung bình thực sự trẻ hơn một chút kể từ thời điểm xiên trước những nỗ lực của Pearson).

Một cuộc thảo luận nhỏ về một số lịch sử có thể được tìm thấy ở đây ; bài đăng đó cũng có thể làm sáng tỏ một vài câu hỏi khác của bạn.

Nếu bạn tìm kiếm trang web của chúng tôi bằng cách sử dụng độ lệch Pearson thứ hai, bạn sẽ đạt được một vài bài đăng có chứa một số thảo luận về hành vi của biện pháp này.

Nó thực sự không có gì lạ hơn những thước đo độ lệch trong tâm trí tôi; cả hai đôi khi làm một số điều kỳ lạ không phù hợp với mong đợi của mọi người về một biện pháp sai lệch.


Hình thức thông thường của được thảo luận trong Wikipedia ở đây ; như đã nói, đó là một phương pháp ước tính khoảnh khắc và là điều tự nhiên được sử dụng dựa trên tính toán dân số theo thời điểm thứ ba được chuẩn hóa.b1

Nếu một người sử dụng cho (nghĩa là không có hiệu chỉnh Bessel), bạn sẽ nhận được loại mà bạn đề cập; một trong số đó là những gì tôi gọi là "phương pháp của những khoảnh khắc". Tôi không rõ ràng có nhiều điểm cố gắng để thiên vị cho mẫu số vì điều đó không nhất thiết là không thiên vị tỷ lệ; nó có thể có ý nghĩa để làm điều đó để tính toán phù hợp với những gì mọi người có thể mong đợi làm bằng tay.snsn1g1

Tuy nhiên, có một cách thứ hai (tương đương) để xác định độ lệch dân số, về mặt tích lũy (xem liên kết Wikipedia ở trên) và nếu đối với độ lệch mẫu bạn đã sử dụng ước tính không thiên vị về những điều đó, bạn sẽ nhận được .G1

[Lưu ý thêm rằng nhân tử số trong với thiên vị nó, vì vậy đó có thể là một lý do khác khiến mọi người nhìn vào biểu mẫu đó. Nếu một người cố gắng không thiên vị cả hai phép tính khoảnh khắc thứ ba và thứ hai, người ta sẽ có được một yếu tố hơi khác nhau ở và ở phía trước.]b1n2(n1)(n2)n,(n1)(n2)

Tất cả ba trong số đó chỉ là những biến thể hơi khác nhau về độ lệch của giây thứ ba. Trong các mẫu rất lớn thực sự không có sự khác biệt mà bạn sử dụng. Trong các mẫu nhỏ hơn, tất cả chúng đều có độ lệch và phương sai khác nhau một chút.


Các hình thức được thảo luận ở đây không làm cạn kiệt các định nghĩa về độ lệch (tôi đã thấy khoảng một chục, tôi nghĩ rằng - bài viết Wikipedia liệt kê khá nhiều, nhưng ngay cả điều đó không bao gồm gam), thậm chí cả các định nghĩa liên quan đến thứ ba sự sai lệch lớn, trong đó tôi đã thấy nhiều hơn ba bạn nuôi ở đây.

Tại sao có nhiều biện pháp sai lệch?

Vì vậy (coi tất cả những sai lệch trong giây thứ ba là một trong một khoảnh khắc) tại sao có nhiều độ lệch khác nhau? Một phần là bởi vì sự sai lệch như một khái niệm thực sự khá khó để xác định. Đó là một thứ trơn trượt mà bạn thực sự không thể ghim xuống một con số. Kết quả là, tất cả các định nghĩa đều không đầy đủ theo một cách nào đó, nhưng tuy nhiên thường phù hợp với ý nghĩa rộng lớn của chúng ta về những gì chúng ta nghĩ rằng một biện pháp sai lệch nên làm. Mọi người tiếp tục cố gắng đưa ra các định nghĩa tốt hơn, nhưng các biện pháp cũ, như bàn phím QWERTY, sẽ không đi đến đâu.

Tại sao có một số biện pháp sai lệch dựa trên khoảnh khắc thứ 3?

Về lý do tại sao rất nhiều sai lệch ở giây thứ ba, đó đơn giản là vì có nhiều hơn một cách để biến thước đo dân số thành thước đo mẫu. Chúng tôi đã thấy hai tuyến đường dựa trên khoảnh khắc và một tuyến đường dựa trên tích lũy. Chúng tôi có thể xây dựng vẫn còn nhiều hơn; ví dụ, chúng tôi có thể thử lấy một số đo không thiên vị (mẫu nhỏ) theo một giả định phân phối, hoặc một biện pháp sai số trung bình bình phương tối thiểu hoặc một số lượng khác như vậy.

Bạn có thể tìm thấy một số bài đăng trên trang web liên quan đến việc khai sáng; có một số ví dụ cho thấy các phân phối không đối xứng nhưng có độ lệch giây thứ ba. Có một số cho thấy độ lệch trung bình Pearson và độ lệch giây thứ ba có thể có dấu hiệu ngược lại.

Dưới đây là các liên kết đến một vài bài viết liên quan đến độ lệch:

Có nghĩa là = trung vị ngụ ý rằng một phân phối không chính thống là đối xứng?

Trong dữ liệu sai lệch trái, mối quan hệ giữa trung bình và trung bình là gì?

Làm thế nào để xác định độ lệch từ biểu đồ với các ngoại lệ?


Liên quan đến câu hỏi cuối cùng của bạn về cách tính :b1

n(xx¯)3((xx¯)2)3/2 #from e1071 :: nguồn xiên

(xx¯)3/n((xx¯)2/n)3/2 #from khoảnh khắc và trang trợ giúp e1071

Hai hình thức là đại số giống nhau; phần thứ hai được viết rõ ràng dưới dạng "khoảnh khắc thứ ba vào giây thứ hai để tăng sức mạnh , trong khi phần thứ nhất chỉ hủy bỏ các điều khoản trong và mang phần thức ăn thừa ra phía trước. Tôi không nghĩ rằng nó được thực hiện vì lý do tránh tràn / underflow; tôi tưởng tượng nó đã được thực hiện bởi vì nó được cho là nhanh hơn một chút. [Nếu tràn hoặc tràn là một mối quan tâm có lẽ người ta sẽ sắp xếp các tính toán khác nhau.] n32n

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.