Một vấn đề với cuộc thảo luận của bạn với giáo sư là một trong những thuật ngữ, có một sự hiểu lầm đang cản trở việc truyền đạt một ý tưởng có thể hữu ích. Ở những nơi khác nhau, cả hai bạn đều mắc lỗi.
Vì vậy, điều đầu tiên cần giải quyết: điều quan trọng là phải khá rõ ràng về phân phối là gì.
Một phân phối bình thường là một đối tượng toán học cụ thể, mà bạn có thể coi là một mô hình cho một quần thể giá trị vô hạn. (Không có dân số hữu hạn thực sự có thể có một phân phối liên tục.)
Một cách lỏng lẻo, phân phối này làm gì (một khi bạn chỉ định các tham số) được xác định (thông qua biểu thức đại số) tỷ lệ của các giá trị dân số nằm trong bất kỳ khoảng nhất định nào trên dòng thực. Ít lỏng lẻo hơn, nó xác định xác suất rằng một giá trị duy nhất từ dân số đó sẽ nằm trong bất kỳ khoảng thời gian nhất định nào.
Một mẫu quan sát không thực sự có phân phối bình thường; một mẫu có thể (có khả năng) được rút ra từ một phân phối bình thường, nếu một mẫu tồn tại. Nếu bạn nhìn vào cdf theo kinh nghiệm của mẫu, nó sẽ rời rạc. Nếu bạn bin nó (như trong biểu đồ), mẫu có "phân phối tần số", nhưng đó không phải là phân phối bình thường. Phân phối có thể cho chúng ta biết một số điều (theo nghĩa xác suất) về một mẫu ngẫu nhiên từ dân số, và một mẫu cũng có thể cho chúng ta biết một số điều về dân số.
Một cách giải thích hợp lý của một cụm từ như "mẫu phân phối thông thường" * là "một mẫu ngẫu nhiên từ dân số phân phối bình thường".
* (Tôi thường cố gắng tránh tự nói điều đó, vì những lý do hy vọng đã được làm rõ ở đây; thường thì tôi cố gắng giới hạn bản thân với loại biểu hiện thứ hai.)
Đã xác định các thuật ngữ (nếu vẫn còn một chút lỏng lẻo), bây giờ chúng ta hãy xem xét chi tiết câu hỏi. Tôi sẽ giải quyết các phần cụ thể của câu hỏi.
phân phối bình thường người ta phải có mean = median = mode
Đây chắc chắn là một điều kiện về phân phối xác suất bình thường, mặc dù không phải là một yêu cầu đối với một mẫu được rút ra từ một phân phối bình thường; các mẫu có thể không đối xứng, có thể có ý nghĩa khác với trung bình và vv. [Tuy nhiên, chúng ta có thể biết được chúng ta có thể mong đợi chúng cách nhau bao xa nếu mẫu thực sự đến từ một dân số bình thường.]
tất cả các dữ liệu phải được chứa dưới đường cong chuông
Tôi không chắc chắn "chứa bên dưới" nghĩa là gì.
và đối xứng hoàn hảo xung quanh giá trị trung bình.
Không; bạn đang nói về dữ liệu ở đây và một mẫu từ dân số bình thường (chắc chắn là đối xứng) sẽ không hoàn toàn đối xứng.
Do đó, về mặt kỹ thuật, hầu như KHÔNG có phân phối bình thường trong các nghiên cứu thực tế,
Tôi đồng ý với kết luận của bạn nhưng lý luận không đúng; đó không phải là hậu quả của thực tế là dữ liệu không đối xứng hoàn hảo (vv); thực tế là dân số bản thân họ không hoàn toàn bình thường .
nếu độ lệch / kurtosis nhỏ hơn 1.0 thì đó là phân phối bình thường
Nếu cô ấy nói điều này theo cách đó, cô ấy chắc chắn sai.
Độ lệch mẫu có thể gần bằng 0 hơn (lấy "nhỏ hơn" có nghĩa là ở độ lớn tuyệt đối không phải là giá trị thực tế), và độ nhiễu quá mức của mẫu cũng có thể gần hơn 0 so với mức đó (thậm chí có thể, dù là tình cờ hay xây dựng, có khả năng gần như chính xác bằng không), và phân phối mà từ đó mẫu được rút ra có thể dễ dàng khác thường.
Chúng ta có thể đi xa hơn - ngay cả khi chúng ta biết một cách kỳ diệu sự lệch lạc và kurtosis của dân số chính xác là bình thường, nó vẫn không cho chúng ta biết dân số bình thường, thậm chí không có gì gần với bình thường.
Bộ dữ liệu là tổng số lần rơi / năm trong một mẫu ngẫu nhiên của 52 viện dưỡng lão, đây là một mẫu ngẫu nhiên của dân số lớn hơn.
Sự phân bố dân số của số lượng không bao giờ là bình thường. Đếm là rời rạc và không âm, phân phối bình thường là liên tục và trên toàn bộ dòng thực.
Nhưng chúng tôi thực sự tập trung vào vấn đề sai ở đây. Mô hình xác suất chỉ có vậy, mô hình . Chúng ta đừng nhầm lẫn mô hình của chúng tôi với thực tế .
Vấn đề không phải là " dữ liệu có bình thường không?" (họ không thể), thậm chí "dân số mà dữ liệu được rút ra bình thường?" (điều này gần như không bao giờ xảy ra)
Một câu hỏi hữu ích hơn để thảo luận là "suy luận của tôi sẽ bị ảnh hưởng nặng nề như thế nào nếu tôi đối xử với dân số như phân phối bình thường?"
Đây cũng là một câu hỏi khó hơn nhiều để trả lời tốt, và có thể đòi hỏi nhiều công việc hơn đáng kể so với việc liếc vào một vài chẩn đoán đơn giản.
Số liệu thống kê mẫu bạn đã hiển thị không đặc biệt không phù hợp với tính quy tắc (bạn có thể thấy số liệu thống kê như vậy hoặc "tệ hơn" không hiếm khi bạn có các mẫu ngẫu nhiên có kích thước đó từ dân số bình thường), nhưng điều đó không có nghĩa là dân số thực tế từ đó mẫu được rút ra sẽ tự động "đủ gần" với bình thường cho một số mục đích cụ thể. Điều quan trọng là phải xem xét mục đích (những câu hỏi bạn đang trả lời) và tính mạnh mẽ của các phương pháp được sử dụng cho nó, và thậm chí sau đó chúng tôi vẫn có thể không chắc chắn rằng nó "đủ tốt"; đôi khi có thể tốt hơn là không giả sử những gì chúng ta không có lý do chính đáng để giả sử một tiên nghiệm (ví dụ trên cơ sở kinh nghiệm với các bộ dữ liệu tương tự).
nó KHÔNG phải là một bản phân phối bình thường
Dữ liệu - ngay cả dữ liệu được rút ra từ một dân số bình thường - không bao giờ có chính xác các thuộc tính của dân số; từ những con số đó, bạn không có cơ sở tốt để kết luận rằng dân số ở đây không bình thường.
Mặt khác, chúng ta cũng không có cơ sở vững chắc nào để nói rằng nó "đủ gần" với bình thường - chúng ta thậm chí chưa xem xét mục đích của việc giả định tính bình thường, vì vậy chúng ta không biết tính năng phân phối nào có thể nhạy cảm.
Ví dụ: nếu tôi có hai mẫu cho phép đo bị giới hạn, tôi biết rằng nó sẽ không rời rạc nhiều (không chỉ lấy một vài giá trị riêng biệt) và gần như đối xứng, tôi có thể tương đối vui khi sử dụng mẫu hai thử nghiệm t ở một số cỡ mẫu không nhỏ; nó mạnh mẽ vừa phải đến độ lệch nhẹ so với các giả định (hơi mạnh mẽ về cấp độ, không quá mạnh mẽ). Nhưng tôi sẽ thận trọng hơn đáng kể về tính bình thường giả định nguyên nhân khi kiểm tra sự bình đẳng của sự lây lan, ví dụ, bởi vì thử nghiệm tốt nhất theo giả định đó khá nhạy cảm với giả định.
Vì cả hai đều nằm giữa các giá trị quan trọng của -1 và +1, dữ liệu này được coi là được phân phối bình thường. "
Nếu đó thực sự là tiêu chí mà người ta quyết định sử dụng mô hình phân phối bình thường, thì đôi khi nó sẽ đưa bạn vào những phân tích khá kém.
Các giá trị của những thống kê đó cho chúng ta một số manh mối về dân số mà mẫu được rút ra, nhưng điều đó không hoàn toàn giống với việc gợi ý rằng các giá trị của chúng theo bất kỳ cách nào là 'hướng dẫn an toàn' để chọn phân tích.
Bây giờ để giải quyết vấn đề cơ bản với ngay cả một phiên bản câu hỏi hay hơn như câu hỏi bạn có:
Toàn bộ quá trình xem xét một mẫu để chọn một mô hình có nhiều vấn đề - làm như vậy sẽ thay đổi các thuộc tính của bất kỳ lựa chọn phân tích tiếp theo nào dựa trên những gì bạn đã thấy! ví dụ, đối với kiểm tra giả thuyết, mức ý nghĩa, giá trị p và sức mạnh của bạn hoàn toàn không phải là những gì bạn sẽ chọn / tính toán chúng , bởi vì những tính toán đó được dựa trên phân tích không dựa trên dữ liệu.
Xem, ví dụ Gelman và Loken (2014), " Cuộc khủng hoảng thống kê trong khoa học ", Nhà khoa học Mỹ , Tập 102, Số 6, trang 460 (DOI: 10.1511 / 2014.111.460) thảo luận về các vấn đề với phân tích phụ thuộc dữ liệu đó.