Có phải một bản phân phối bình thường không cần có chế độ mean = median =?


17

Tôi đã tranh luận với giáo sư thống kê cấp sau đại học về "phân phối bình thường". Tôi cho rằng để thực sự có được một phân phối bình thường, người ta phải có mean = median = mode, tất cả dữ liệu phải được chứa dưới đường cong chuông và đối xứng hoàn hảo với giá trị trung bình. Do đó, về mặt kỹ thuật, hầu như KHÔNG có phân phối bình thường trong các nghiên cứu thực tế và chúng ta nên gọi chúng là một cái gì đó khác, có lẽ là "gần như bình thường".

Cô ấy nói rằng tôi quá kén chọn, và nếu độ lệch / kurtosis nhỏ hơn 1.0 thì đó là một phân phối bình thường và mất điểm trong một bài kiểm tra. Bộ dữ liệu là tổng số lần rơi / năm trong một mẫu ngẫu nhiên của 52 viện dưỡng lão, đây là một mẫu ngẫu nhiên của dân số lớn hơn. Bất kỳ cái nhìn sâu sắc?

Vấn đề:

CÂU HỎI: 3. Tính toán các độ lệch và độ nhiễu cho dữ liệu này. Bao gồm một biểu đồ với một đường cong bình thường. Thảo luận về những phát hiện của bạn. Là dữ liệu thường được phân phối?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

a. Nhiều chế độ tồn tại. Giá trị nhỏ nhất được hiển thị

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Câu trả lời của tôi:

Dữ liệu rất thú vị và chỉ có độ lệch dương nhỏ và KHÔNG phải là phân phối bình thường vì giá trị trung bình và trung bình và chế độ không bằng nhau và dữ liệu không được phân bổ đều xung quanh giá trị trung bình. Trong thực tế hầu như không có dữ liệu nào là phân phối bình thường hoàn hảo, mặc dù chúng ta có thể thảo luận về các phân phối bình thường của Google như chiều cao, cân nặng, nhiệt độ hoặc chiều dài của ngón đeo nhẫn trưởng thành trong các nhóm dân số lớn.

Câu trả lời của giáo sư:

Bạn đúng là không có phân phối hoàn toàn bình thường. Nhưng, chúng tôi không tìm kiếm sự hoàn hảo. Chúng ta cần xem xét dữ liệu ngoài biểu đồ và các biện pháp của xu hướng trung tâm. Các số liệu thống kê độ lệch và kurtosis cho bạn biết gì về phân phối? Vì cả hai đều nằm giữa các giá trị tới hạn của -1 và +1, dữ liệu này được coi là được phân phối bình thường.


3
Tôi muốn biết từ ngữ chính xác của giáo sư của bạn. Về nguyên tắc, một phân phối bình thường có ý nghĩa, trung bình và chế độ giống hệt nhau (nhưng nhiều phân phối khác) và có độ lệch 0 và (được gọi là dư thừa) kurtosis 0 (và một số phân phối khác). Tốt nhất là một phân phối với (ví dụ) độ lệch nhẹ hoặc kurtosis là xấp xỉ bình thường. Lưu ý rằng hầu hết tất cả các dữ liệu thực tế đều ở mức xấp xỉ tốt nhất cho các phân phối được đặt tên trong các lý thuyết lý thuyết.
Nick Cox

22
Tôi không đồng ý với @ user2974951 Trong công ty với mọi văn bản hay tôi biết tôi hoàn toàn hạnh phúc khi nghĩ rằng bản phân phối bình thường có chế độ trung bình và chế độ. Và điều đó áp dụng rộng rãi cho các bản phân phối liên tục, mặc dù tôi không nghi ngờ rằng các ví dụ phản ứng bệnh lý có thể được xác định.
Nick Cox

4
Cảm ơn các chi tiết cụ thể, cho thấy công đức ở cả hai bên, nhưng tôi không chấm điểm cho một trong hai bạn. Tuy nhiên, tôi không đồng ý với các giá trị quan trọng được sử dụng bởi Giáo sư của bạn, vì các giới hạn cho độ lệch và kurtosis không có chỗ đứng nào ngoài các quy tắc có thể được sử dụng. Tùy thuộc vào những gì bạn đang làm với dữ liệu, độ lệch < 1 có thể đi cùng với việc muốn chuyển đổi dữ liệu và độ lệch > 1 có thể đi cùng với việc để lại dữ liệu, và tương tự như vậy đối với kurtosis. ±1<1>1
Nick Cox

6
Nếu chúng ta nghiêm túc cho phép bản thân nắm bắt nghệ thuật nitpicking, chúng ta nên quan sát rằng không có thác tiêu cực, và thác đó là rời rạc, vì vậy sự phân phối trên thực tế không thể bình thường. Điều này làm cho khoảng trống câu hỏi ở vị trí đầu tiên. Trong một lưu ý nghiêm trọng hơn, câu hỏi rõ ràng là một ví dụ bịa đặt nhằm kiểm tra các quy tắc cụ thể của ngón tay cái. Trong thực tế, tùy thuộc vào mục tiêu nghiên cứu của chúng tôi, có thể hợp lý hoặc không giả định phân phối bình thường. Trong thực tế, chúng tôi sẽ không bao giờ biết, vì chúng tôi chỉ có một mẫu.
Ioannis

5
@ user2974951 Bạn nên cân nhắc xóa bình luận đầu tiên của mình, sau đó, vì bạn không đồng ý với nó ngay bây giờ. Cho đến nay nó đã đánh lừa ba độc giả báo hiệu họ đồng ý với nó!
whuber

Câu trả lời:


25

Một vấn đề với cuộc thảo luận của bạn với giáo sư là một trong những thuật ngữ, có một sự hiểu lầm đang cản trở việc truyền đạt một ý tưởng có thể hữu ích. Ở những nơi khác nhau, cả hai bạn đều mắc lỗi.

Vì vậy, điều đầu tiên cần giải quyết: điều quan trọng là phải khá rõ ràng về phân phối là gì.

Một phân phối bình thường là một đối tượng toán học cụ thể, mà bạn có thể coi là một mô hình cho một quần thể giá trị vô hạn. (Không có dân số hữu hạn thực sự có thể có một phân phối liên tục.)

Một cách lỏng lẻo, phân phối này làm gì (một khi bạn chỉ định các tham số) được xác định (thông qua biểu thức đại số) tỷ lệ của các giá trị dân số nằm trong bất kỳ khoảng nhất định nào trên dòng thực. Ít lỏng lẻo hơn, nó xác định xác suất rằng một giá trị duy nhất từ ​​dân số đó sẽ nằm trong bất kỳ khoảng thời gian nhất định nào.

Một mẫu quan sát không thực sự có phân phối bình thường; một mẫu có thể (có khả năng) được rút ra từ một phân phối bình thường, nếu một mẫu tồn tại. Nếu bạn nhìn vào cdf theo kinh nghiệm của mẫu, nó sẽ rời rạc. Nếu bạn bin nó (như trong biểu đồ), mẫu có "phân phối tần số", nhưng đó không phải là phân phối bình thường. Phân phối có thể cho chúng ta biết một số điều (theo nghĩa xác suất) về một mẫu ngẫu nhiên từ dân số, và một mẫu cũng có thể cho chúng ta biết một số điều về dân số.

Một cách giải thích hợp lý của một cụm từ như "mẫu phân phối thông thường" * là "một mẫu ngẫu nhiên từ dân số phân phối bình thường".

* (Tôi thường cố gắng tránh tự nói điều đó, vì những lý do hy vọng đã được làm rõ ở đây; thường thì tôi cố gắng giới hạn bản thân với loại biểu hiện thứ hai.)

Đã xác định các thuật ngữ (nếu vẫn còn một chút lỏng lẻo), bây giờ chúng ta hãy xem xét chi tiết câu hỏi. Tôi sẽ giải quyết các phần cụ thể của câu hỏi.

phân phối bình thường người ta phải có mean = median = mode

Đây chắc chắn là một điều kiện về phân phối xác suất bình thường, mặc dù không phải là một yêu cầu đối với một mẫu được rút ra từ một phân phối bình thường; các mẫu có thể không đối xứng, có thể có ý nghĩa khác với trung bình và vv. [Tuy nhiên, chúng ta có thể biết được chúng ta có thể mong đợi chúng cách nhau bao xa nếu mẫu thực sự đến từ một dân số bình thường.]

tất cả các dữ liệu phải được chứa dưới đường cong chuông

Tôi không chắc chắn "chứa bên dưới" nghĩa là gì.

và đối xứng hoàn hảo xung quanh giá trị trung bình.

Không; bạn đang nói về dữ liệu ở đây và một mẫu từ dân số bình thường (chắc chắn là đối xứng) sẽ không hoàn toàn đối xứng.

Do đó, về mặt kỹ thuật, hầu như KHÔNG có phân phối bình thường trong các nghiên cứu thực tế,

Tôi đồng ý với kết luận của bạn nhưng lý luận không đúng; đó không phải là hậu quả của thực tế là dữ liệu không đối xứng hoàn hảo (vv); thực tế là dân số bản thân họ không hoàn toàn bình thường .

nếu độ lệch / kurtosis nhỏ hơn 1.0 thì đó là phân phối bình thường

Nếu cô ấy nói điều này theo cách đó, cô ấy chắc chắn sai.

Độ lệch mẫu có thể gần bằng 0 hơn (lấy "nhỏ hơn" có nghĩa là ở độ lớn tuyệt đối không phải là giá trị thực tế), và độ nhiễu quá mức của mẫu cũng có thể gần hơn 0 so với mức đó (thậm chí có thể, dù là tình cờ hay xây dựng, có khả năng gần như chính xác bằng không), và phân phối mà từ đó mẫu được rút ra có thể dễ dàng khác thường.

Chúng ta có thể đi xa hơn - ngay cả khi chúng ta biết một cách kỳ diệu sự lệch lạc và kurtosis của dân số chính xác là bình thường, nó vẫn không cho chúng ta biết dân số bình thường, thậm chí không có gì gần với bình thường.

Bộ dữ liệu là tổng số lần rơi / năm trong một mẫu ngẫu nhiên của 52 viện dưỡng lão, đây là một mẫu ngẫu nhiên của dân số lớn hơn.

Sự phân bố dân số của số lượng không bao giờ là bình thường. Đếm là rời rạc và không âm, phân phối bình thường là liên tục và trên toàn bộ dòng thực.

Nhưng chúng tôi thực sự tập trung vào vấn đề sai ở đây. Mô hình xác suất chỉ có vậy, mô hình . Chúng ta đừng nhầm lẫn mô hình của chúng tôi với thực tế .

Vấn đề không phải là " dữ liệu có bình thường không?" (họ không thể), thậm chí "dân số mà dữ liệu được rút ra bình thường?" (điều này gần như không bao giờ xảy ra)

Một câu hỏi hữu ích hơn để thảo luận là "suy luận của tôi sẽ bị ảnh hưởng nặng nề như thế nào nếu tôi đối xử với dân số như phân phối bình thường?"

Đây cũng là một câu hỏi khó hơn nhiều để trả lời tốt, và có thể đòi hỏi nhiều công việc hơn đáng kể so với việc liếc vào một vài chẩn đoán đơn giản.

Số liệu thống kê mẫu bạn đã hiển thị không đặc biệt không phù hợp với tính quy tắc (bạn có thể thấy số liệu thống kê như vậy hoặc "tệ hơn" không hiếm khi bạn có các mẫu ngẫu nhiên có kích thước đó từ dân số bình thường), nhưng điều đó không có nghĩa là dân số thực tế từ đó mẫu được rút ra sẽ tự động "đủ gần" với bình thường cho một số mục đích cụ thể. Điều quan trọng là phải xem xét mục đích (những câu hỏi bạn đang trả lời) và tính mạnh mẽ của các phương pháp được sử dụng cho nó, và thậm chí sau đó chúng tôi vẫn có thể không chắc chắn rằng nó "đủ tốt"; đôi khi có thể tốt hơn là không giả sử những gì chúng ta không có lý do chính đáng để giả sử một tiên nghiệm (ví dụ trên cơ sở kinh nghiệm với các bộ dữ liệu tương tự).

nó KHÔNG phải là một bản phân phối bình thường

Dữ liệu - ngay cả dữ liệu được rút ra từ một dân số bình thường - không bao giờ có chính xác các thuộc tính của dân số; từ những con số đó, bạn không có cơ sở tốt để kết luận rằng dân số ở đây không bình thường.

Mặt khác, chúng ta cũng không có cơ sở vững chắc nào để nói rằng nó "đủ gần" với bình thường - chúng ta thậm chí chưa xem xét mục đích của việc giả định tính bình thường, vì vậy chúng ta không biết tính năng phân phối nào có thể nhạy cảm.

Ví dụ: nếu tôi có hai mẫu cho phép đo bị giới hạn, tôi biết rằng nó sẽ không rời rạc nhiều (không chỉ lấy một vài giá trị riêng biệt) và gần như đối xứng, tôi có thể tương đối vui khi sử dụng mẫu hai thử nghiệm t ở một số cỡ mẫu không nhỏ; nó mạnh mẽ vừa phải đến độ lệch nhẹ so với các giả định (hơi mạnh mẽ về cấp độ, không quá mạnh mẽ). Nhưng tôi sẽ thận trọng hơn đáng kể về tính bình thường giả định nguyên nhân khi kiểm tra sự bình đẳng của sự lây lan, ví dụ, bởi vì thử nghiệm tốt nhất theo giả định đó khá nhạy cảm với giả định.

Vì cả hai đều nằm giữa các giá trị quan trọng của -1 và +1, dữ liệu này được coi là được phân phối bình thường. "

Nếu đó thực sự là tiêu chí mà người ta quyết định sử dụng mô hình phân phối bình thường, thì đôi khi nó sẽ đưa bạn vào những phân tích khá kém.

Các giá trị của những thống kê đó cho chúng ta một số manh mối về dân số mà mẫu được rút ra, nhưng điều đó không hoàn toàn giống với việc gợi ý rằng các giá trị của chúng theo bất kỳ cách nào là 'hướng dẫn an toàn' để chọn phân tích.


Bây giờ để giải quyết vấn đề cơ bản với ngay cả một phiên bản câu hỏi hay hơn như câu hỏi bạn có:

Toàn bộ quá trình xem xét một mẫu để chọn một mô hình có nhiều vấn đề - làm như vậy sẽ thay đổi các thuộc tính của bất kỳ lựa chọn phân tích tiếp theo nào dựa trên những gì bạn đã thấy! ví dụ, đối với kiểm tra giả thuyết, mức ý nghĩa, giá trị p và sức mạnh của bạn hoàn toàn không phải là những gì bạn sẽ chọn / tính toán chúng , bởi vì những tính toán đó được dựa trên phân tích không dựa trên dữ liệu.

Xem, ví dụ Gelman và Loken (2014), " Cuộc khủng hoảng thống kê trong khoa học ", Nhà khoa học Mỹ , Tập 102, Số 6, trang 460 (DOI: 10.1511 / 2014.111.460) thảo luận về các vấn đề với phân tích phụ thuộc dữ liệu đó.


Xin chào Peter, xin lỗi tôi thậm chí không nhìn thấy bài viết của bạn ở đó.
Glen_b -Reinstate Monica

Cuộc trò chuyện này đã được chuyển sang trò chuyện .
Glen_b -Reinstate Monica

41

Bạn đang thiếu điểm và có lẽ cũng đang "khó khăn", điều không được đánh giá cao trong ngành. Cô ấy cho bạn xem một ví dụ về đồ chơi, để huấn luyện bạn đánh giá tính quy phạm của một tập dữ liệu, nghĩa là liệu tập dữ liệu đó có đến từ một bản phân phối bình thường hay không . Nhìn vào các khoảnh khắc phân phối là một cách để kiểm tra tính quy tắc, ví dụ kiểm tra Jarque Bera dựa trên đánh giá như vậy.

Vâng, phân phối bình thường là hoàn toàn đối xứng. Tuy nhiên, nếu bạn vẽ một mẫu từ một phân phối bình thường thực sự, mẫu đó rất có thể sẽ không đối xứng hoàn hảo. Đây là điểm bạn hoàn toàn thiếu. Bạn có thể tự kiểm tra điều này rất dễ dàng. Chỉ cần tạo một mẫu từ phân phối Gaussian và kiểm tra thời điểm của nó. Họ sẽ không bao giờ hoàn toàn "bình thường", mặc dù phân phối thực sự là như vậy.

Đây là một ví dụ Python ngớ ngẩn. Tôi đang tạo ra 100 mẫu gồm 100 số ngẫu nhiên, sau đó lấy phương tiện và trung vị của chúng. Tôi in mẫu đầu tiên để cho thấy giá trị trung bình và trung bình là khác nhau, sau đó hiển thị biểu đồ của sự khác biệt giữa phương tiện và trung bình. Bạn có thể thấy rằng nó khá hẹp, nhưng sự khác biệt về cơ bản không bao giờ bằng không. Lưu ý rằng các con số thực sự đến từ một phân phối bình thường .

mã:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

đầu ra: nhập mô tả hình ảnh ở đây

PS

Bây giờ, liệu ví dụ từ câu hỏi của bạn có nên được coi là bình thường hay không phụ thuộc vào ngữ cảnh. Trong bối cảnh những gì được dạy trong phòng học của bạn, bạn đã sai, bởi vì giáo sư của bạn muốn xem liệu bạn có biết quy tắc kiểm tra ngón tay cái mà cô ấy đưa ra hay không, đó là sự sai lệch và dư thừa cần phải nằm trong -1 đến 1 phạm vi.

Cá nhân tôi chưa bao giờ sử dụng quy tắc đặc biệt này (tôi không thể gọi nó là một bài kiểm tra) và thậm chí còn không biết nó tồn tại. Rõ ràng, một số người trong một số lĩnh vực sử dụng nó mặc dù. Nếu bạn cắm các mô tả tập dữ liệu của bạn vào kiểm tra JB, nó sẽ từ chối tính quy tắc. Do đó, bạn không sai khi đề xuất rằng tập dữ liệu không bình thường, tất nhiên, nhưng bạn đã sai theo nghĩa là bạn đã không áp dụng quy tắc được mong đợi từ bạn dựa trên những gì được dạy trong lớp.

Nếu tôi là bạn, tôi sẽ lịch sự tiếp cận giáo sư của mình và tự giải thích, cũng như hiển thị kết quả kiểm tra JB. Tôi thừa nhận rằng dựa trên bài kiểm tra của cô ấy, câu trả lời của tôi là sai, tất nhiên. Nếu bạn cố gắng tranh luận với cô ấy theo cách bạn tranh luận ở đây, cơ hội của bạn rất thấp để lấy lại điểm trong bài kiểm tra, bởi vì lý luận của bạn yếu về trung bình và phương tiện và mẫu, điều đó cho thấy sự thiếu hiểu biết về mẫu so với dân số. Nếu bạn thay đổi giai điệu của mình, thì bạn sẽ có một trường hợp.


23
(+1) Chính xác là điểm. Nhầm lẫn biến ngẫu nhiên và một mẫu nhận ra từ biến ngẫu nhiên đó.
Tây An

15
t

Sẽ công bằng khi nói rằng nếu các mẫu của bạn được phân phối hoàn toàn bình thường, đó là bằng chứng chuỗi cho thấy các mẫu không ngẫu nhiên?
JimmyJames

@JimmyJames, 4 năm trước đã có một bài báo trên Science tuyên bố cuộc trò chuyện 20 phút với một người tán thành đồng tính có thể thay đổi cảm xúc của bạn đối với người đồng tính. Nó chỉ ra rằng các tác giả tạo nên dữ liệu khảo sát của họ. Chúng quá lười biếng và tạo ra tiếng ồn Gaussian hoàn hảo, và đó là cách chúng bị bắt - xem Bất thường trong LaCour (2014) của Broockman et al
Aksakal

@Aksakal Tôi không chắc đó chính xác là điều tôi đang hỏi. Trong trường hợp đó tôi nghĩ rằng lập luận trong trường hợp đó là dữ liệu thực không bao giờ hoàn toàn bình thường. Tôi bắt đầu từ tuyên bố của bạn "Tuy nhiên, nếu bạn vẽ một mẫu từ phân phối bình thường thực sự, mẫu đó rất có thể sẽ không đối xứng hoàn hảo." Nếu tôi lấy mẫu ngẫu nhiên từ một phân phối bình thường hoàn hảo, tôi sẽ không hy vọng rằng mỗi điểm dữ liệu kế tiếp sẽ rơi đúng vị trí cần điền vào một đường cong bình thường hoàn hảo. Điều đó có vẻ rất giống một quá trình lựa chọn không ngẫu nhiên với tôi.
JimmyJames

6

Giáo viên rõ ràng không thuộc về yếu tố của mình và có lẽ không nên dạy thống kê. Có vẻ tệ hơn đối với tôi khi dạy một cái gì đó sai hơn là không dạy nó chút nào.

Tất cả các vấn đề này đều có thể được xóa một cách dễ dàng nếu sự khác biệt giữa "dữ liệu" và "quá trình tạo ra dữ liệu" được thực hiện rõ ràng hơn. Dữ liệu nhắm mục tiêu quá trình sản xuất dữ liệu. Phân phối bình thường là một mô hình cho quá trình này.

Thật vô nghĩa khi nói về việc dữ liệu có được phân phối bình thường hay không. Vì một lý do, dữ liệu luôn rời rạc. Vì một lý do khác, phân phối bình thường mô tả một vô số các đại lượng có thể quan sát được, không phải là một tập hợp hữu hạn của các đại lượng quan sát cụ thể.

Hơn nữa, câu trả lời cho câu hỏi "là quy trình tạo ra dữ liệu một quy trình được phân phối bình thường " cũng luôn luôn là "không", bất kể dữ liệu là gì. Hai lý do đơn giản: (i) bất kỳ phép đo nào chúng tôi thực hiện đều nhất thiết phải rời rạc, được làm tròn đến một mức nào đó. (ii) đối xứng hoàn hảo, giống như một vòng tròn hoàn hảo, không tồn tại trong bản chất quan sát được. Luôn luôn có sự không hoàn hảo.

Tốt nhất, câu trả lời cho câu hỏi "những dữ liệu này cho bạn biết gì về tính quy tắc của quá trình tạo dữ liệu" có thể được đưa ra như sau: "những dữ liệu này phù hợp với những gì chúng ta mong đợi, dữ liệu thực sự đến từ quy trình phân phối bình thường. " Câu trả lời đó không chính xác không kết luận rằng phân phối là bình thường.

Những vấn đề này rất dễ hiểu bằng cách sử dụng mô phỏng. Chỉ cần mô phỏng dữ liệu từ một phân phối bình thường và so sánh chúng với dữ liệu hiện có. Nếu dữ liệu được đếm (0,1,2,3, ...), thì rõ ràng mô hình bình thường là sai vì nó không tạo ra các số như 0,1,2,3, ...; thay vào đó, nó tạo ra các số có số thập phân kéo dài mãi mãi (hoặc ít nhất là cho đến khi máy tính cho phép.) Mô phỏng như vậy sẽ là điều đầu tiên bạn làm khi tìm hiểu về câu hỏi thông thường. Sau đó, bạn có thể giải thích chính xác hơn các biểu đồ và số liệu thống kê tóm tắt.


10
Tôi không hạ câu trả lời của bạn, nhưng hãy xem xét rằng bạn đang đánh giá một giáo sư tốt nghiệp từ những lời của một sinh viên. Làm thế nào có khả năng là một học sinh đúng và một giáo viên sai? Không phải nhiều khả năng là sinh viên đang trình bày sai về giáo sư của mình và bối cảnh của cuộc trò chuyện sao?
Aksakal

Dựa trên kinh nghiệm của tôi và dựa trên các từ của học sinh, tôi muốn nói rằng nhiều khả năng giáo viên đã sai. Có những giáo viên ít được đào tạo chính quy dạy các khóa học, thậm chí các khóa học, ở các trường đại học ở khắp mọi nơi. Nếu các cơ quan công nhận chỉ biết sự thật!
Peter Westfall

6
@ Possum-Pie, tôi có thể đoán những gì được mong đợi từ bạn. Đây có lẽ là khóa học 101-ish trong các số liệu thống kê, vì vậy bạn phải xem xét độ lệch và kurtosis. Nếu chúng không đủ gần 0 và 3, thì bạn nói nó không bình thường. Đó là tất cả. Trong thực tế đó là những gì kiểm tra JB làm theo cách chính thức hơn. Điểm quan trọng của bài tập là để bạn nhớ rằng Gaussian bị lệch 0 và kurtosis 3. Bạn đang biến bài tập ngớ ngẩn nhưng cần thiết này thành một cuộc thảo luận triết học.
Aksakal

2
Nhận xét của giáo viên "Vì cả hai đều nằm giữa các giá trị quan trọng của -1 và +1, dữ liệu này được coi là được phân phối bình thường" chắc chắn cho thấy (i) thiếu hiểu biết hoặc (ii) sẵn sàng dạy cho những gì họ biết bị sai Tôi không nghĩ rằng đó là một cuộc thảo luận triết học để đặt câu hỏi về sự chuẩn bị của giáo viên hoặc phương pháp sư phạm.
Peter Westfall

3
Ngôn ngữ "nhất quán" là tốt. Nhưng như Possum-Pie đã lưu ý, các giáo viên nói với học sinh, "dựa trên bài kiểm tra / chẩn đoán này, dữ liệu là bình thường", điều này sai ở một số tính toán. Giáo viên (tâm lý và mặt khác) cần (i) phân biệt quá trình tạo dữ liệu với dữ liệu, (ii) nói với học sinh rằng các mô hình bình thường và các mô hình khác là mô hình cho quá trình tạo dữ liệu, (iii) nói với họ rằng phân phối bình thường luôn luôn sai như một mô hình, bất kể chẩn đoán, và (iv) nói với họ rằng quan điểm của bài tập là chẩn đoán mức độ không bình thường, không trả lời có / không. Sau đó giải thích tại sao nó quan trọng.
Peter Westfall

4

Tôi là một kỹ sư, vì vậy trong thế giới của tôi, nhà thống kê ứng dụng là những gì tôi thấy nhiều nhất và nhận được giá trị cụ thể nhất. Nếu bạn đang làm việc trong ứng dụng, thì bạn cần phải có căn cứ vững chắc trong thực tiễn trên lý thuyết: dù có thanh lịch hay không, máy bay phải bay và không gặp sự cố.

Khi tôi nghĩ về câu hỏi này theo cách tôi tiếp cận, như nhiều người kỹ thuật của tôi ở đây cũng đã làm, là nghĩ về "nó trông như thế nào trong thế giới thực với sự hiện diện của tiếng ồn".

Điều thứ hai mà tôi làm là, thường là, để tạo ra một mô phỏng cho phép tôi nắm bắt được câu hỏi.

Đây là một khám phá rất ngắn gọn:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Nó cung cấp điều này như là đầu ra: nhập mô tả hình ảnh ở đây

Lưu ý: hãy cẩn thận về trục x, vì nó được chia tỷ lệ, không được chia tỷ lệ.

Tôi biết rằng trung bình và trung bình là hoàn toàn giống nhau. Các mã nói nó. Việc thực hiện theo kinh nghiệm rất nhạy cảm với kích thước mẫu và nếu không có mẫu thực sự vô hạn, thì chúng không thể hoàn toàn khớp với lý thuyết.

Bạn có thể suy nghĩ về sự không chắc chắn trong trung bình bao trùm trung bình ước tính hoặc ngược lại. Nếu ước tính tốt nhất về giá trị trung bình nằm trong 95% CI của ước tính cho trung vị, thì dữ liệu không thể cho biết sự khác biệt. Các dữ liệu nói rằng họ giống nhau về lý thuyết. Nếu bạn nhận được nhiều dữ liệu hơn, sau đó xem những gì nó nói.


1
Đồ thị thú vị. Tôi đã nghĩ rằng Trung bình thường sẽ lớn hơn trung bình lúc đầu khi xem xét các cuộc rượt đuổi trung bình ngoại lệ ... nói cách khác, các thanh màu đỏ sẽ có nghĩa và màu xanh lá cây là trung bình. Tôi đang thiếu gì?
Possum-Pie

1
@ Possum-Pie Hãy nhớ rằng các ngoại lệ có thể theo một trong hai hướng ... phân phối bình thường có cả đuôi trái và đuôi phải!
Cá bạc

2
@ Sẽ là một cách thực hiện khá chuẩn của boxplot.
Glen_b -Reinstate Monica

1
@Glen_b Tôi đã thấy rất nhiều sách giáo khoa không dạy cách sử dụng dấu chấm cho các ngoại lệ, vì vậy có thể hiểu ai đó không quen với chúng. Nhưng theo Hadley , các dấu chấm đã ở đó ngay cả khi Tukey giới thiệu "âm mưu sơ đồ" của mình vào năm 1970.
Silverfish

1
Vâng, một phiên bản không có ngoại lệ trong đó (chỉ dựa trên tóm tắt 5 số) về cơ bản sẽ là cốt truyện phạm vi của Mary Spear (1952). (NB rằng giấy bỏ lỡ một số tiền thân boxplot lịch sử quan trọng, trước năm 1952)
Glen_b -Reinstate Monica

4

Trong thống kê y tế, chúng tôi chỉ nhận xét về hình dạng và dường như phân phối. Thực tế là không có mẫu hữu hạn rời rạc nào có thể bình thường là không liên quan và mang tính mô phạm. Tôi sẽ đánh dấu bạn sai cho điều đó.

Nếu một bản phân phối trông "chủ yếu" bình thường, chúng tôi thoải mái gọi nó là bình thường. Khi tôi mô tả các bản phân phối cho đối tượng không thống kê, tôi rất thoải mái khi gọi một thứ gì đó gần như bình thường ngay cả khi tôi biết phân phối bình thường không phải là mô hình xác suất cơ bản, tôi có cảm giác tôi sẽ ở bên cạnh giáo viên của bạn ở đây ... nhưng chúng tôi không có biểu đồ hoặc tập dữ liệu để xác minh.

Một mẹo nhỏ, tôi sẽ trải qua các cuộc kiểm tra sau đây rất chặt chẽ:

  • ai là người ngoài cuộc, bao nhiêu và giá trị của họ là gì?
  • Là dữ liệu lưỡng kim?
  • Các dữ liệu dường như có hình dạng lệch để một số biến đổi (như nhật ký) sẽ định lượng tốt hơn "khoảng cách" giữa các quan sát?
  • Có cắt ngắn hoặc nóng lên rõ ràng để các xét nghiệm hoặc phòng thí nghiệm không thể phát hiện một cách đáng tin cậy một phạm vi giá trị nhất định?

Dường như trong một lĩnh vực có quá nhiều toán học, mọi người sẽ khắt khe hơn khi nói một cái gì đó là "phân phối bình thường" có những quan niệm rất nghiêm ngặt và nói rằng nó "gần như bình thường". Tôi sẽ không bao giờ nói rằng 1.932 là 2. nhưng tôi có thể nói là gần 2.
Possum-Pie

1
"Không liên quan và ấu dâm"? Nghiêm túc? Tôi đồng ý với Possum-Pie. Tôi cũng sẽ không bao giờ nói rằng 1.932 giống như 2.0. Nói rằng dữ liệu là "bình thường" làm lẫn lộn mọi thứ, từ ý nghĩa của phân phối bình thường như là một mô hình cho quy trình tạo ra dữ liệu, đến thực tế là các phân phối bình thường không bao giờ mô hình chính xác các quy trình của chúng tôi. Mọi người nên được dạy rằng khi họ học phân phối bình thường để họ không đưa ra những tuyên bố ngớ ngẩn.
Peter Westfall

2
@PeterWestfall Tôi nghĩ rằng một phần của vấn đề ở đây là "dữ liệu đến từ phân phối bình thường" gần như không bao giờ đúng theo nghĩa đen và ngay cả khi đó là sự thật, có thể không thể chứng minh được nó một cách thuyết phục. Vì vậy, cụm từ hầu như không bao giờ đúng theo nghĩa đen, thay vào đó, mọi người sẽ sử dụng "dữ liệu là bình thường" như một cách thuận tiện để có nghĩa là "dữ liệu dường như đủ gần với tính chuẩn cho mục đích thực tế" hoặc "phân phối bình thường là tốt- đủ mô hình cho DGP của chúng tôi ".
Cá bạc

Vậy tại sao lại dạy những gì sai khi quá đơn giản để dạy những gì đúng?
Peter Westfall

3
@PeterW Điểm ngôn ngữ không chỉ là về cách dạy, mà là về cách sử dụng cụm từ (và dự định được hiểu) trong cuộc sống hàng ngày: "dữ liệu là bình thường" gần như không bao giờ được sử dụng có nghĩa là "Tôi biết chắc chắn rằng dân số dữ liệu được lấy mẫu là bình thường ", bởi vì điều đó khó có thể xảy ra. Nó sẽ đẹp hơn nếu mọi người nói "các dữ liệu dường như bình thường" hoặc thậm chí "ngoại hình dữ liệu normalish " (tức là dường như đủ gần để bình thường mà chúng ta không quan tâm đến độ lệch của nó từ trạng thái bình thường) nhưng đặc biệt là trong một môi trường ứng dụng người ta thường sẽ nói những thứ như thế.
Cá bạc

2

Tôi nghĩ rằng bạn và giáo sư của bạn đang nói chuyện trong bối cảnh khác nhau. Bình đẳng của mean = median = mode là đặc điểm của phân phối lý thuyết và đây không phải là đặc điểm duy nhất. Bạn không thể nói rằng nếu đối với bất kỳ phân phối nào trên tài sản giữ thì phân phối là bình thường. Phân bố T cũng đối xứng nhưng nó không bình thường. Vì vậy, bạn đang nói về các tính chất lý thuyết của phân phối bình thường luôn luôn đúng với phân phối bình thường.

Bạn giáo sư đang nói về phân phối dữ liệu mẫu. Anh ấy đúng, bạn sẽ không bao giờ có được dữ liệu trong cuộc sống thực, nơi bạn sẽ tìm thấy mean = median = mode. Điều này chỉ đơn giản là do lỗi lấy mẫu . Tương tự như vậy, rất khó xảy ra, bạn sẽ nhận được hệ số sai lệch bằng không đối với dữ liệu mẫu và độ nhiễu quá mức. Giáo sư của bạn chỉ đưa ra cho bạn quy tắc đơn giản để có ý tưởng về phân phối từ số liệu thống kê mẫu. Điều này không đúng nói chung (không có thêm thông tin).


3
Giáo sư được cho là femaie.
Nick Cox

Tại sao bạn không nhận được mean = median = mode chủ yếu là do nhiều bản phân phối thực sự bị sai lệch! (Đúng ra, trung bình = trung bình = chế độ là có thể với các bản phân phối lệch quá, mặc dù những gì nhiều sách giáo khoa nói.)
Nick Cox

1
Tôi không đồng ý rằng thiếu bình đẳng về trung bình / trung bình / chế độ = lỗi lấy mẫu. Giả sử bạn lấy mẫu ngẫu nhiên 52 viện dưỡng lão cho tỷ lệ rơi. Các ngôi nhà 27, 34 và 52 thường xuyên bị thiếu nhân viên và luôn có số lần ngã trên trung bình. Những ngôi nhà đó có nghĩa là về phía đuôi và không phải do lỗi lấy mẫu.
Possum-Pie

1
@Possum Pie Dữ liệu là thứ yếu ở đây nhưng bạn đang đưa ra các tín hiệu khác nhau ở những nơi khác nhau. Ở đây bạn đang nói về một số viện dưỡng lão - nhưng trong câu hỏi của bạn, bạn nói "trong một viện dưỡng lão". Không rõ ràng về các chi tiết thậm chí ngẫu nhiên không giúp đỡ.
Nick Cox

@Nick Cox Xin lỗi, tôi đã làm rõ điều đó. Số lần rơi / năm trong một mẫu của 52 viện dưỡng lão
Possum-Pie

1

Đối với các mục đích thực tế, các quy trình cơ bản như quy trình này thường được xác định gần đúng bằng phân phối bình thường mà không có ai nâng cao lông mày.

Tuy nhiên, nếu bạn muốn trở thành mô phạm thì quá trình cơ bản trong trường hợp này không thể được phân phối một cách bình thường, bởi vì nó không thể tạo ra các giá trị âm (số lần rơi không thể âm). Tôi sẽ không ngạc nhiên nếu trên thực tế nó ít nhất là một phân phối hai phương thức với đỉnh thứ hai gần bằng không.


Nó là bimodal với các chế độ ở 4 lần rơi và 13 lần rơi. Không có thác nào được báo cáo.
Possum-Pie
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.