Làm cách nào để kiểm tra phân phối bình thường bằng Excel để thực hiện kiểm tra t?


21

Tôi muốn biết cách kiểm tra tập dữ liệu về tính quy tắc trong Excel, chỉ để xác minh rằng các yêu cầu sử dụng kiểm tra t đang được đáp ứng .

Đối với đuôi bên phải, có thích hợp khi chỉ tính độ lệch trung bình và độ lệch chuẩn, thêm độ lệch chuẩn 1, 2 & 3 so với giá trị trung bình để tạo phạm vi sau đó so sánh với 68/95 / 99,7 bình thường cho phân phối chuẩn thông thường sau khi sử dụng hàm Norm.dist trong excel để kiểm tra từng giá trị độ lệch chuẩn.

Hoặc có cách nào tốt hơn để kiểm tra tính bình thường?


Câu trả lời:


15

Bạn có ý tưởng đúng. Điều này có thể được thực hiện một cách có hệ thống, toàn diện và với các tính toán tương đối đơn giản. Một biểu đồ kết quả được gọi là biểu đồ xác suất bình thường (hoặc đôi khi là biểu đồ PP). Từ đó, bạn có thể thấy nhiều chi tiết hơn xuất hiện trong các biểu diễn đồ họa khác, đặc biệt là biểu đồ và với một chút thực hành, bạn thậm chí có thể học cách xác định cách thể hiện lại dữ liệu của mình để làm cho chúng gần với Bình thường hơn trong các tình huống được bảo hành.

Đây là một ví dụ:

Bảng tính với biểu đồ xác suất

Dữ liệu nằm trong cột A(và được đặt tên Data). Phần còn lại là tất cả tính toán, mặc dù bạn có thể kiểm soát giá trị "thứ hạng bản lề" được sử dụng để khớp với một dòng tham chiếu cho cốt truyện.

Biểu đồ này là một biểu đồ phân tán so sánh dữ liệu với các giá trị sẽ đạt được bằng các số được rút ra độc lập với phân phối chuẩn. Khi các điểm thẳng hàng dọc theo đường chéo, chúng gần với Bình thường; khởi hành ngang (dọc theo trục dữ liệu) biểu thị các lần khởi hành từ tính quy tắc. Trong ví dụ này, các điểm rất gần với đường tham chiếu; sự khởi hành lớn nhất xảy ra ở giá trị cao nhất, khoảng đơn vị ở bên trái của dòng. Do đó, chúng ta thấy rằng những dữ liệu này rất gần với Thông thường được phân phối nhưng có lẽ có đuôi bên phải hơi "nhẹ". Điều này là hoàn toàn tốt để áp dụng một bài kiểm tra t.1.5

Các giá trị so sánh trên trục tung được tính theo hai bước. Đầu tiên mỗi giá trị dữ liệu được xếp hạng từ đến , lượng dữ liệu (được hiển thị trong trường trong ô ). Chúng được chuyển đổi tỷ lệ thành các giá trị trong phạm vi đến . Một công thức tốt để sử dụng là (Xem http://www.quantdec.com/envstats/notes/group_02/characterizing_distribution.htmlm để biết nơi xuất phát.) Sau đó, chúng được chuyển đổi thành các giá trị Bình thường tiêu chuẩn thông qua hàm. Những giá trị này xuất hiện trong cột. Cốt truyện bên phải là một biểu đồ phân tán XY1nCountF201(rank1/6)/(n+2/3).NormSInvNormal scoreNormal Scorechống lại dữ liệu. (Trong một số tài liệu tham khảo, bạn sẽ thấy chuyển vị của âm mưu này, có lẽ là tự nhiên hơn, nhưng Excel thích đặt cột ngoài cùng bên trái trên trục ngang và cột ngoài cùng bên phải trên trục dọc, vì vậy tôi đã để nó làm những gì nó thích. )

Bảng tính: tính điểm bình thường

(Như bạn có thể thấy, tôi đã mô phỏng các dữ liệu này bằng các lần rút ngẫu nhiên độc lập từ phân phối chuẩn với trung bình 5 và độ lệch chuẩn 2 Do đó, không có gì ngạc nhiên khi biểu đồ xác suất trông rất đẹp.) Thực sự chỉ có hai công thức để nhập vào, mà bạn truyền xuống để khớp với dữ liệu: chúng xuất hiện trong các ô B2:C2và dựa vào Countgiá trị được tính trong ô F2. Đó thực sự là tất cả những gì có, ngoài âm mưu.

Phần còn lại của tờ này là không cần thiết nhưng nó hữu ích cho việc đánh giá cốt truyện: nó cung cấp một ước tính mạnh mẽ về một dòng tham chiếu. Điều này được thực hiện bằng cách chọn hai điểm cách xa nhau từ bên trái và bên phải của cốt truyện và kết nối chúng với một đường thẳng. Trong ví dụ này, các điểm này thấp nhất thứ ba và cao thứ ba, được xác định bởi 3 trong Hinge Rankô , F3. Như một phần thưởng, độ dốc và đánh chặn của nó là các ước tính mạnh mẽ về độ lệch chuẩn và giá trị trung bình của dữ liệu, tương ứng.

Để vẽ đường tham chiếu, hai điểm cực trị được tính toán và thêm vào biểu đồ: phép tính của chúng xảy ra trong các cột I:J, được dán nhãn XY.

Bảng tính: tính toán dòng tham chiếu


Đối với các công thức trong Col B, bạn có giải thích lý do để thêm 1 và chia cho 6 và 3 không (cách + 1/6 1/6 và phần + + 1/3)? Ngoài ra có lý do nào bạn chọn chia cho 6 trong Hinge Rank Cell không?

1/6100×1/6100×5/601/21/40.16

Công thức (thứ hạng + 1/6) / (n + 1/3) dường như không đối xứng như chúng ta có thể dự đoán. ví dụ: với quan sát giữa của 3, thứ hạng là 2 và điều này sẽ gợi ý tỷ lệ phần trăm tương ứng là 0,65 thay vì những gì có vẻ là tự nhiên để thực hiện cho quan sát giữa (0,5). Tôi đã bỏ lỡ một cái gì đó rõ ràng? [Tôi đã thấy Tukey sử dụng một vài công thức khác nhau ở những nơi khác nhau, bao gồm (i-1/3) / (n + 1/3). Công thức tại liên kết của bạn phù hợp với sơ đồ chung (ia) / (n + 1-2a) nhưng công thức bạn đưa ra trong câu trả lời của bạn không]
Glen_b -Reinstate Monica

ran+12a
r1na011/6(r1/6)/(n+2/3)a=1/3
whuber

5

Bạn có thể vẽ biểu đồ bằng cách sử dụng gói công cụ phân tích dữ liệu trong Excel . Các phương pháp đồ họa có nhiều khả năng truyền đạt mức độ phi quy tắc, thường phù hợp hơn với kiểm tra giả định (xem phần thảo luận về tính quy tắc này ).

Gói công cụ phân tích dữ liệu trong Excel cũng sẽ cung cấp cho bạn độ lệch và nhiễu loạn nếu bạn yêu cầu thống kê mô tả và chọn tùy chọn "thống kê tóm tắt". Ví dụ, bạn có thể coi các giá trị của độ lệch trên cộng hoặc trừ đi là một dạng không quy tắc thực chất.

Điều đó nói rằng, giả định với các bài kiểm tra t là phần dư được phân phối bình thường và không phải là biến. Hơn nữa, chúng cũng khá mạnh đến mức ngay cả với số lượng không lớn theo quy tắc, giá trị p vẫn khá hợp lệ.


4

Câu hỏi này cũng dựa trên lý thuyết thống kê - việc kiểm tra tính quy tắc với dữ liệu hạn chế có thể là câu hỏi (mặc dù tất cả chúng ta đã làm điều này theo thời gian).

Thay vào đó, bạn có thể xem xét các hệ số kurtosis và xiên. Từ Hahn và Shapiro: Các mô hình thống kê trong kỹ thuật, một số nền tảng được cung cấp trên các thuộc tính Beta1 và Beta2 (trang 42 đến 49) và Hình 6-1 của trang 197. Có thể tìm thấy lý thuyết bổ sung đằng sau điều này trên Wikipedia (xem Phân phối Pearson).

Về cơ bản, bạn cần tính toán các thuộc tính được gọi là Beta1 và Beta2. Beta1 = 0 và Beta2 = 3 cho thấy tập dữ liệu tiếp cận tính quy tắc. Đây là một thử nghiệm sơ bộ nhưng với dữ liệu hạn chế, có thể lập luận rằng bất kỳ thử nghiệm nào cũng có thể được coi là thử nghiệm thô.

Beta1 có liên quan đến khoảnh khắc 2 và 3, hoặc phương sai và độ lệch tương ứng. Trong Excel, đây là VAR và SKEW. Trong đó ... là mảng dữ liệu của bạn, công thức là:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 có liên quan đến khoảnh khắc 2 và 4, hoặc phương sai và kurtosis , tương ứng. Trong Excel, đây là VAR và KURT. Trong đó ... là mảng dữ liệu của bạn, công thức là:

Beta2 = KURT(...)/VAR(...)^2

Sau đó, bạn có thể kiểm tra các giá trị này tương ứng với các giá trị 0 và 3. Điều này có lợi thế là có khả năng xác định các phân phối khác (bao gồm Phân phối Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Ví dụ: nhiều phân phối thường được sử dụng như Đồng phục, Bình thường, Sinh viên t, Beta, Gamma, Hàm mũ và Log-Bình thường có thể được chỉ định từ các thuộc tính này:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Những điều này được minh họa trong Hahn và Shapiro Hình 6-1.

Cấp này là một thử nghiệm rất khó khăn (với một số vấn đề) nhưng bạn có thể muốn xem nó như một kiểm tra sơ bộ trước khi đi đến một phương pháp nghiêm ngặt hơn.

Ngoài ra còn có các cơ chế điều chỉnh để tính toán Beta1 và Beta2 nơi dữ liệu bị hạn chế - nhưng điều đó nằm ngoài bài viết này.


Rất nhiều tài liệu này có thể hoạt động tốt cho các bộ dữ liệu lớn và tôi đồng ý với đánh giá ban đầu của bạn rằng kiểm tra tính quy phạm có thể bị hạn chế hoặc nghi ngờ với các bộ dữ liệu nhỏ. Nhưng với sự thay đổi lớn của độ lệch và kurtosis, dường như bất kỳ nỗ lực nào để xác định loại phân phối cơ bản dựa trên các thống kê này sẽ còn đáng ngờ hơn và ít chắc chắn hơn. Do đó, cách tiếp cận này sẽ không (tốt nhất) gây hiểu lầm ngay cả khi kiểm tra sơ bộ?
whuber

1
Có lẽ tốt nhất là nên đủ điều kiện cho phương pháp hơn nữa: Hahn và Shapiro (như được giới thiệu ở trên) khuyên rằng nên thận trọng, đặc biệt là khi cỡ mẫu nhỏ hơn 200 - và khuyên rằng nên theo dõi thêm bằng cách xác minh thêm, như bảng tần số so sánh phân phối được trang bị với dữ liệu thực tế. Nhưng theo quan điểm của tôi, đây là một phương pháp hữu ích có thể gợi ý nơi dữ liệu có thể nằm trong một phạm vi khả năng. Tôi đã sử dụng nó trên các tập dữ liệu không nhỏ hơn khoảng 3000 và đã tích hợp nó vào phần mềm mô phỏng máy tính nơi nó tỏ ra hữu ích.
AsymLabs

Tôi có thể thấy phương pháp của bạn cung cấp thông tin hữu ích với bộ dữ liệu từ 3000 trở lên. Tuy nhiên, sau đó không cần thực hiện kiểm tra phân phối để đánh giá khả năng áp dụng thử nghiệm t của giá trị trung bình.
whuber

Dù người ta xem đây là một kỹ thuật hữu ích, như tôi làm, hay nói cách khác, dường như là quan điểm của bạn, dù sao đó cũng là một cách thay thế nhanh chóng và lâu dài (bởi Pearson) để kiểm tra tính bình thường (và ứng dụng của Học sinh) trong bối cảnh của chủ đề này. Xin đừng hiểu lầm tôi, tôi thừa nhận và đồng ý với những lo lắng của bạn. Nhưng cả hai chúng tôi đều đồng ý, nếu không có thông tin trước đó, cố gắng xác định liệu toàn bộ dân số có thể được mô hình hóa trên Gaussian từ một mẫu dữ liệu rất nhỏ hay không là một cú đánh trong bóng tối tốt nhất với bất kỳ phương pháp nào, và tệ nhất là nguy hiểm.
AsymLabs

1
Đúng rồi. Tất cả những gì tôi đang nói là nếu thử nguy hiểm, từ một mẫu nhỏ, để kiểm tra xem quần thể có phải là Gaussian hay không, thì ít nhất cũng nguy hiểm khi sử dụng độ lệch và nhiễu loạn để xác định phân bố cơ bản có thể là gì! Trên thực tế, có vẻ như một nỗ lực như vậy sẽ thực sự tồi tệ hơn bởi vì nó dựa vào các số liệu thống kê không ổn định như kurtosis. Mặc dù hệ thống của Pearson có thể là một hướng dẫn mạnh mẽ để giúp mọi người xác định các bản phân phối có thể, nhưng nó cung cấp ít thông tin chi tiết hơn so với các màn hình đồ họa hạn chế như biểu đồ.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.