Chúng ta có nên dạy kurtosis trong một khóa học thống kê ứng dụng? Nếu vậy thì thế nào?


17

Xu hướng trung tâm, sự lây lan và độ lệch đều có thể được xác định tương đối tốt, ít nhất là trên cơ sở trực quan; các biện pháp toán học tiêu chuẩn của những điều này cũng tương đối tốt với các quan niệm trực quan của chúng ta. Nhưng kurtosis dường như là khác nhau. Điều đó rất khó hiểu và nó không phù hợp với bất kỳ trực giác nào về hình dạng phân phối.

Một lời giải thích điển hình về kurtosis trong một cài đặt được áp dụng sẽ là trích xuất từ thống kê Ứng dụng cho doanh nghiệp và quản lý bằng Microsoft Excel :[1]

Kurtosis đề cập đến mức độ phân phối cực đại hoặc ngược lại là độ phẳng của nó. Nếu có nhiều giá trị dữ liệu trong các đuôi, hơn những gì bạn mong đợi từ một phân phối bình thường, thì sự suy yếu là tích cực. Ngược lại, nếu có ít giá trị dữ liệu trong các đuôi, hơn bạn mong đợi trong một phân phối bình thường, thì sự suy yếu là âm tính. Excel không thể tính toán thống kê này trừ khi bạn có ít nhất bốn giá trị dữ liệu.

Bên cạnh sự nhầm lẫn giữa "kurtosis" và "kurtosis dư thừa" (như trong cuốn sách này, người ta thường sử dụng từ trước đây để chỉ những gì tác giả khác gọi là cái sau), cách giải thích theo nghĩa "đỉnh cao" hoặc "độ phẳng" sau đó bị rối loạn bởi sự chuyển đổi chú ý đến việc có bao nhiêu mục dữ liệu trong đuôi. Xem xét cả "đỉnh" và "đuôi" là cần thiết - Kaplansky[2]Vào năm 1945, nhiều người đã phàn nàn rằng nhiều sách giáo khoa thời bấy giờ đã nói sai về sự bứt rứt là làm thế nào với mức cao nhất của phân phối so với phân phối bình thường, mà không xem xét các đuôi. Nhưng rõ ràng việc phải xem xét hình dạng cả ở đỉnh và ở đuôi khiến cho trực giác khó nắm bắt hơn, một điểm trích dẫn được trích dẫn ở trên bỏ qua bằng cách phân biệt từ đỉnh đến độ nặng của đuôi như thể các khái niệm này giống nhau.

Ngoài ra, cách giải thích "đỉnh và đuôi" cổ điển này của kurtosis chỉ hoạt động tốt đối với các phân phối đối xứng và không chính thống (thực sự, các ví dụ minh họa trong văn bản đó đều là đối xứng). Tuy nhiên, cách chung "chính xác" để giải thích sự bứt rứt, cho dù xét về "đỉnh", "đuôi" hay "vai", đã bị tranh cãi trong nhiều thập kỷ . [2][3][4][5][6]

Có một cách trực quan để dạy kurtosis trong một thiết lập được áp dụng mà sẽ không gặp phải mâu thuẫn hoặc phản tác dụng khi một phương pháp nghiêm ngặt hơn được thực hiện? Kurtosis thậm chí là một khái niệm hữu ích trong bối cảnh của các loại khóa học phân tích dữ liệu ứng dụng này, trái ngược với các lớp thống kê toán học? Nếu "đỉnh cao" của một bản phân phối là một khái niệm hữu ích trực giác, chúng ta có nên dạy nó bằng L-khoảnh khắc không?[7]

[1] Herkenhoff, L. và Fogli, J. (2013). Thống kê áp dụng cho doanh nghiệp và quản lý bằng Microsoft Excel . New York, NY: Mùa xuân.

[2] Kaplansky, I. (1945). "Một lỗi phổ biến liên quan đến kurtosis". Tạp chí của Hiệp hội Thống kê Hoa Kỳ , 40 (230): 259.

[3] Darlington, Richard B (1970). "Kurtosis có thực sự là 'Đỉnh cao' không?". Thống kê người Mỹ 24 (2): 19 Từ22

[4] Moors, JJA. (1986) "Ý nghĩa của kurtosis: Darlington tái hiện". Thống kê người Mỹ 40 (4): 283 Công284

[5] Balanda, Kevin P. và MacGillivray, HL (1988). " Kurtosis: Một phê bình quan trọng". Thống kê người Mỹ 42 (2): 111 Từ119

[6] DeCarlo, LT (1997). " Về ý nghĩa và cách sử dụng của kurtosis ". Phương pháp tâm lý , 2 (3), 292. Chicago

[7] Ôm, JRM (1992). "Khoảnh khắc hay khoảnh khắc L? Một ví dụ so sánh hai biện pháp hình dạng phân phối". Thống kê người Mỹ 46 (3): 186


2
Bạn có ý nghĩa gì bởi các chương trình giảng dạy thông thường? Tức là trình độ học vấn.
Gumeo

5
Chính xác thì bạn đang dạy gì về kurtosis? Câu hỏi này khá mơ hồ vì nó là. Vui lòng điền vào làm thế nào nó phù hợp với chương trình giảng dạy của bạn bây giờ và có lẽ một số ví dụ trực quan từ các biện pháp tiêu chuẩn mà bạn đồng ý với điều đó là mâu thuẫn trong kurtosis.
Giăng

3
Tôi không nghĩ rằng thước đo thời gian của sự tổn thương thực sự khác nhiều so với sự sai lệch về thời điểm đó. Trong cả hai trường hợp, họ không thực sự phản ánh những gì mọi người nghĩ họ làm, và cả hai đều ít trực quan hơn những câu chuyện mà mọi người tự nói về họ. Đối với mỗi ví dụ đáng ngạc nhiên mà tôi có về kurtosis, tôi có một ví dụ khác về sự sai lệch. Tôi sẽ không loại bỏ một trong số chúng, nhưng tôi sẽ giảm sự nhấn mạnh vào các biện pháp thời điểm, tôi sẽ di chuyển chúng sau và thay đổi cách chúng được dạy, để chúng tôi không nhầm lẫn các khái niệm khác nhau và chúng tôi không tuyên bố rằng không giữ được.
Glen_b -Reinstate Monica

3
Độ nghiêng cao hơn không có nghĩa là một cái đuôi nặng hơn theo hướng xiên. Độ lệch không có nghĩa là sự đối xứng (tất cả các khoảnh khắc kỳ lạ bằng 0 thậm chí không bao hàm sự đối xứng). Đối xứng thậm chí không ngụ ý độ lệch bằng không. Những trực giác nào còn lại?
Glen_b -Reinstate Monica

3
Đây là một câu trả lời khác với một số cuộc thảo luận có một lớp ví dụ thú vị. Có một số người khác nhưng tôi không thấy chúng ngay bây giờ. Một số bài viết của whuber cũng hữu ích.
Glen_b -Reinstate Monica

Câu trả lời:


18

Kurtosis thực sự khá đơn giản ... và hữu ích. Nó chỉ đơn giản là một biện pháp của ngoại lệ, hoặc đuôi. Nó không có gì để làm với đỉnh cao nhất - định nghĩa đó phải được từ bỏ.

Đây là bộ dữ liệu:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Lưu ý rằng '999' là một ngoại lệ.

Dưới đây là các giá trị từ tập dữ liệu:z4

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

Lưu ý rằng chỉ có ngoại lệ cho khác biệt đáng kể so với 0.z4

Giá trị trung bình của các giá trị này là sự suy yếu của phân phối theo kinh nghiệm (trừ 3 nếu bạn muốn, điều đó không quan trọng đối với điểm tôi đang thực hiện): 18.05z4

Rõ ràng từ tính toán này là dữ liệu gần "đỉnh" (dữ liệu không phải là ngoại lệ) đóng góp gần như không có gì cho thống kê kurtosis.

Kurtosis là hữu ích như là một biện pháp của ngoại lệ. Outliers rất quan trọng đối với học sinh tiểu học và do đó nên dạy về kurtosis. Nhưng kurtosis hầu như không liên quan gì đến đỉnh điểm, cho dù đó là nhọn, phẳng, lưỡng kim hay vô hạn. Bạn có thể có tất cả những điều trên với kurtosis nhỏ và tất cả những điều trên với kurtosis lớn. Vì vậy, KHÔNG BAO GIỜ nên được trình bày là có liên quan đến đỉnh điểm, bởi vì đó sẽ là thông tin không chính xác. Nó cũng làm cho các tài liệu không cần phải bối rối, và dường như ít hữu ích hơn.

Tóm lược:

  1. Kurtosis là hữu ích như là một biện pháp của đuôi (ngoại lệ).
  2. Kurtosis không có gì để làm với đỉnh.
  3. Kurtosis thực tế hữu ích và nên được dạy, nhưng chỉ là một biện pháp của các ngoại lệ. Không đề cập đến đỉnh điểm khi dạy kurtosis.

Bài viết này giải thích rõ ràng lý do tại sao định nghĩa "Đỉnh cao" bây giờ chính thức chết.

Tây, PH (2014). " Kurtosis as Peakedness, 1905 - 2014. RIP " Nhà thống kê người Mỹ , 68 (3), 191 Phản 195.


4
Chào mừng bạn đến với CV, tôi hy vọng bạn sẽ tiếp tục và đóng góp nhiều hơn trong tương lai! Tôi đã chỉnh sửa bài đăng của bạn để bao gồm một liên kết đến bài báo và định dạng lại một số ký hiệu toán học, tôi hy vọng bạn không phiền. (Bằng cách đặt toán học vào $ví dụ: $z^4$có thể sử dụng .)LATEX
Silverfish

6

Trong khi câu hỏi hơi mơ hồ, nó rất thú vị. Ở cấp độ nào là kurtosis được dạy? Tôi nhớ nó đã được đề cập trong một khóa học (cấp độ thạc sĩ) trong các mô hình tuyến tính (thời gian dài trước đây, dựa trên ấn bản đầu tiên của cuốn sách của Saber). Đây không phải là một chủ đề quan trọng, nhưng nó tham gia vào các chủ đề như nghiên cứu tính mạnh mẽ (thiếu) của kiểm tra tỷ lệ khả năng (F-test) về sự bằng nhau của phương sai, trong đó (từ bộ nhớ) mức độ chính xác phụ thuộc vào việc có cùng mức độ tổn thương như phân phối bình thường, đó là quá nhiều để giả định! Chúng tôi đã thấy một bài báo (nhưng tôi không bao giờ đọc nó với thông tin chi tiết) http://www.jstor.org/ sóng / 4615828? Seq = 1 # page_scan_tab_contents của Oja, cố gắng tìm hiểu những gì xiên, kurtosis và các biện pháp thực sự như vậy.

Tại sao tôi thấy điều này thú vị? Bởi vì tôi đã giảng dạy ở Mỹ Latinh, nơi mà dường như sự sai lệch & kurtosis được dạy bởi nhiều chủ đề quan trọng, và cố gắng nói với sinh viên sau đại học (nhiều người từ nền kinh tế) rằng kurtosis là một hình thức phân phối tồi tệ (chủ yếu bởi vì sự thay đổi lấy mẫu của quyền hạn thứ tư đơn giản là lớn), rất khó. Tôi đã cố gắng để họ sử dụng QQplots thay thế. Vì vậy, đối với một số người bình luận, vâng, điều này được dạy ở một nơi nào đó, có thể là nhiều!

Nhân tiện, đây không chỉ là ý kiến ​​của tôi. Bài đăng trên blog sau đây https://www.spcforexcel.com/ledgeledge/basic-statistic/are-skewness-and-kurtosis-usiously-statistic chứa trích dẫn này (quy cho Tiến sĩ Wheeler):

Nói tóm lại, xiên và kurtosis thực tế là vô giá trị. Shewhart đã thực hiện quan sát này trong cuốn sách đầu tiên của mình. Các số liệu thống kê cho độ lệch và kurtosis đơn giản là không cung cấp bất kỳ thông tin hữu ích nào ngoài các thông tin đã được đưa ra bằng các biện pháp xác định vị trí và phân tán.

Chúng ta nên dạy các kỹ thuật tốt hơn để nghiên cứu các hình thức phân phối! chẳng hạn như QQplots (hoặc các lô phân phối tương đối). Và, nếu ai đó vẫn cần các biện pháp số, các biện pháp dựa trên khoảnh khắc L sẽ tốt hơn. Tôi sẽ trích dẫn một đoạn từ bài báo của Stat Stat Soc B (1990) 52, số 1, trang 105--124 của JRM Hosking: "L-khoảnh khắc: Phân tích và ước tính phân phối bằng cách sử dụng kết hợp tuyến tính của thống kê đơn hàng", trang 109:

λ1λ2μ(F)12σ1(F)τ3τ4

(Đối với thời điểm này, tôi đề cập đến giấy cho các định nghĩa của các biện pháp này, tất cả chúng đều dựa trên L-khoảnh khắc.) Điều thú vị là, các biện pháp truyền thống của nhọn, dựa trên những khoảnh khắc thứ tư, là không một biện pháp nhọn theo nghĩa của Oja! (Tôi sẽ chỉnh sửa trong tài liệu tham khảo cho khiếu nại đó khi tôi có thể tìm thấy nó).


1
Không có vấn đề với việc sử dụng đồ họa và các kỹ thuật khác để hiểu các thuộc tính phân phối, nhưng tuyên bố rằng "độ lệch và kurtosis thực sự không có giá trị" là cường điệu. Cả hai đều có tác dụng lớn đối với tất cả các loại suy luận thống kê.
Peter Westfall

@Peter Có lẽ nó có nghĩa là "sự suy yếu theo kinh nghiệm" trong câu nói đó.
kjetil b halvorsen

1
Mặc dù vậy, kurtosis theo kinh nghiệm cho bạn biết khi bạn gặp vấn đề ngoại lệ trong dữ liệu của mình. Vì vậy, tôi vẫn nghĩ rằng nhận xét "sự sai lệch và kurtosis thực sự không có giá trị" là cường điệu. Chắc chắn, chúng có thể không phải là ước tính tuyệt vời của các thông số "dân số", đặc biệt là với các cỡ mẫu nhỏ hơn, nhưng "thực tế không có giá trị" là một sự kéo dài. Ngay cả khi họ không ước tính các thông số dân số đặc biệt tốt, họ vẫn cung cấp thông tin mô tả hữu ích về tập dữ liệu hiện có. Thông tin, tất nhiên, nên được bổ sung bằng các khung nhìn đồ họa như các ô qq.
Peter Westfall

@Peter Westfall: Q thực sự có thể là nếu sự tổn thương theo kinh nghiệm là biện pháp tốt nhất để phát hiện các vấn đề ngoại lai, hoặc nếu có điều gì tốt hơn?
kjetil b halvorsen

Kurtosis theo kinh nghiệm đo lường đặc tính ngoại lệ của một tập dữ liệu, không phải các ngoại lệ riêng lẻ. Tôi sẽ không đi xa để nói rằng kurtosis = 3 (như bình thường) có nghĩa là "không có ngoại lệ", nhưng tôi sẽ nói rằng trường hợp như vậy có nghĩa là ký tự ngoại lệ (được đo bằng giá trị z trung bình, mỗi ký tự được đưa đến giá trị thứ tư sức mạnh) tương tự như phân phối bình thường. Mặt khác, một sự suy yếu rất lớn chắc chắn chỉ ra một vấn đề ngoại lệ. Có, lô qq bình thường là tốt hơn để chẩn đoán tinh tế hơn. BTW, cốt truyện qq bình thường và kurtosis dư thừa có mối liên hệ toán học vững chắc.
Peter Westfall

3

Theo ý kiến ​​của tôi, hệ số xiên rất hữu ích để thúc đẩy các thuật ngữ: sai lệch tích cực và sai lệch tiêu cực. Nhưng, đó là nơi nó dừng lại, nếu mục tiêu của bạn là đánh giá tính bình thường. Các biện pháp cổ điển về độ lệch và kurtosis thường không nắm bắt được các loại sai lệch khác với tính quy tắc. Tôi thường ủng hộ học sinh của mình sử dụng các kỹ thuật đồ họa để đánh giá nó là hợp lý để đánh giá tính chuẩn, chẳng hạn như biểu đồ qq hoặc biểu đồ xác suất bình thường. Ngoài ra với một mẫu có kích thước phù hợp, biểu đồ cũng có thể được sử dụng. Boxplots cũng hữu ích để xác định các ngoại lệ hoặc thậm chí đuôi nặng.

Đây là nội tuyến với các khuyến nghị một lực lượng đặc nhiệm năm 1999 của APA:

" Giả định. Bạn nên nỗ lực để đảm bảo rằng các giả định cơ bản cần thiết cho phân tích là hợp lý khi đưa ra dữ liệu. Kiểm tra dư lượng cẩn thận. Không sử dụng các xét nghiệm phân phối và các chỉ số thống kê về hình dạng (ví dụ: độ lệch, kurtosis) để thay thế cho việc kiểm tra đồ thị của bạn. Sử dụng một bài kiểm tra thống kê để chẩn đoán các vấn đề trong phù hợp mô hình có một số thiếu sót. Đầu tiên, các xét nghiệm có ý nghĩa chẩn đoán dựa trên thống kê tóm tắt (như các xét nghiệm về tính đồng nhất của phương sai) thường rất nhạy cảm; các thử nghiệm thống kê của chúng tôi về các mô hình thường mạnh hơn các thử nghiệm thống kê về các giả định của chúng tôi. Thứ hai, các số liệu thống kê như độ lệch và kurtosis thường không phát hiện ra sự bất thường phân phối trong phần dư. Thứ ba, kiểm tra thống kê phụ thuộc vào kích thước mẫu và khi kích thước mẫu tăng, các bài kiểm tra thường sẽ từ chối các giả định vô hại. Nói chung, không có sự thay thế cho phân tích đồ họa của các giả định."

Tham khảo: Wilkinson, L., và Lực lượng đặc nhiệm về suy luận thống kê. (1999). Phương pháp thống kê trong các tạp chí tâm lý học: Hướng dẫn và giải thích. Nhà tâm lý học người Mỹ, 54, 594-604.


1

Tùy thuộc vào mức độ áp dụng của khóa học, câu hỏi về tính chính xác của các ước tính có thể được đưa ra. Độ chính xác của ước tính phương sai phụ thuộc mạnh mẽ vào kurtosis. Lý do điều này xảy ra là với mức độ tổn thương cao, phân phối cho phép dữ liệu hiếm, cực kỳ có khả năng quan sát được. Do đó, quá trình tạo dữ liệu sẽ tạo ra các giá trị cực trị trong một số mẫu và không quá giá trị ở các mẫu khác. Trong trường hợp trước, bạn có được ước tính phương sai rất lớn và trong trường hợp sau, ước tính phương sai nhỏ.

Nếu cách giải thích "đỉnh cao" lỗi thời và không chính xác đã bị loại bỏ, và trọng tâm hoàn toàn dành cho các ngoại lệ (nghĩa là hiếm, quan sát cực đoan) thay vào đó, thì việc dạy kurtosis trong các khóa học giới thiệu sẽ dễ dàng hơn. Nhưng mọi người vặn vẹo thành những nút thắt cố gắng biện minh cho "đỉnh cao" bởi vì nó (không chính xác) đã được nêu theo cách đó trong sách giáo khoa của họ, và họ bỏ lỡ các ứng dụng thực sự của kurtosis. Các ứng dụng này chủ yếu liên quan đến các ngoại lệ, và tất nhiên các ngoại lệ rất quan trọng trong các khóa học thống kê ứng dụng.


1
Bạn có phải là Peter Westfall giống như tác giả của câu trả lời được đánh giá cao nhất trong chủ đề này? Nếu vậy, bạn có thể hợp nhất các hồ sơ của bạn với nhau và sau đó trực tiếp chỉnh sửa câu trả lời cũ của bạn thay vì đăng một câu trả lời khác.
amip nói phục hồi Monica

1
Vâng, xin lỗi vì đã bỏ lỡ các nghi thức mạng.
Peter Westfall

-1

Kurt[X]=E[(Xμσ)4]=μ4σ4=E[(Xμ)4](E[(Xμ)2])2,

1ni=1nμ,σ2,μ4μσ2


1
Vấn đề là, một khi bạn bị suy nhược, nó rất không trực quan (nếu có gì) nghĩa là gì. Nó không phù hợp với phẩm chất hữu ích của phân phối.
Peter Flom - Tái lập Monica

Vâng, kurtosis không phù hợp với chất lượng phân phối rất hữu ích - đó là thước đo về trọng lượng (ngoại lệ). Hỗ trợ các định lý toán học mà không có ví dụ: (i) kurtosis nằm giữa E (Z ^ 4 * I (| Z |> 1)) và E (Z ^ 4 * I (| Z |> 1)) + 1 , cho tất cả các bản phân phối có thời điểm thứ 4 hữu hạn. (ii) cho lớp con của các phân phối liên tục trong đó mật độ của Z ^ 2 đang giảm trên (0,1), sự suy yếu nằm giữa E (Z ^ 4 * I (| Z |> 1)) và E (Z ^ 4 * I (| Z |> 1)) + .5 và (iii) cho bất kỳ chuỗi phân phối nào có kurtosis có xu hướng vô cùng, E (Z ^ 4 * I (| Z |> b)) / kurtosis -> 1, cho mỗi thực tế b.
Peter Westfall
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.