Khi nào thì viết được, chúng tôi đã giả sử một bản phân phối bình thường của một phép đo thực nghiệm?


9

Nó đã ăn sâu vào việc giảng dạy các ngành học ứng dụng, chẳng hạn như y học, rằng các phép đo đại lượng y học sinh học trong dân số theo một "đường cong hình chuông" bình thường. Một tìm kiếm của Google về chuỗi "chúng tôi giả định phân phối bình thường" trả về kết quả ! Chúng có vẻ như, "với số lượng nhỏ các điểm dữ liệu cực đoan, chúng tôi giả định phân phối bình thường cho các dị thường nhiệt độ" trong một nghiên cứu về biến đổi khí hậu; hoặc "chúng tôi giả định một phân phối bình thường của ngày nở gà con" trên một tài liệu có thể ít gây tranh cãi hơn về chim cánh cụt; hoặc "chúng tôi giả định phân phối bình thường các cú sốc tăng trưởng GDP" ,23,900, ... và những thứ khác).

Gần đây, tôi thấy mình đặt câu hỏi về việc xử lý dữ liệu đếm như được phân phối bình thường do tính chất tích cực nghiêm ngặt của chúng. Tất nhiên, dữ liệu đếm là rời rạc, làm cho tính quy luật của chúng trở nên giả tạo hơn. Nhưng ngay cả khi bỏ điểm cuối này sang một bên, tại sao các biện pháp thực nghiệm liên tục như cân nặng, chiều cao hoặc nồng độ glucose, được coi là nguyên mẫu "liên tục", được coi là bình thường? Họ không thể có những quan sát nhận thức tiêu cực hơn bất kỳ số lượng nào!

Tôi hiểu rằng khi độ lệch chuẩn thấp hơn đáng kể so với giá trị trung bình, chỉ ra một vài giá trị âm ("kiểm tra phạm vi 95%") có thể là một giả định thực tế và biểu đồ tần số có thể hỗ trợ nếu không quá sai lệch. Nhưng câu hỏi không có vẻ tầm thường và một cuộc tìm kiếm nhanh đã mang lại những điều thú vị.

Trong Tự nhiên, chúng ta có thể tìm thấy tuyên bố sau đây trong một bức thư của DF Heath : "Tôi muốn chỉ ra rằng để phân tích thống kê một số loại dữ liệu, giả định rằng dữ liệu được rút ra từ một dân số bình thường thường là sai và thay thế giả định phân phối log-normal là tốt hơn. Sự thay thế này được sử dụng rộng rãi bởi các nhà thống kê, nhà kinh tế và vật lý, nhưng vì một số lý do thường bị các nhà khoa học của một số ngành khác bỏ qua. "

Limpert lưu ý rằng "mô hình log-normal có thể đóng vai trò là một xấp xỉ theo nghĩa mà nhiều nhà khoa học nhận thấy bình thường là một xấp xỉ hợp lệ hiện nay" , trong khi lưu ý đến sức mạnh thấp của các thử nghiệm về tính phù hợp của tính bình thường và khó khăn trong việc lựa chọn phân phối đúng theo kinh nghiệm khi xử lý các mẫu nhỏ.

Do đó, câu hỏi đặt ra là "Khi nào có thể chấp nhận giả định phân phối bình thường của phép đo thực nghiệm trong các ngành khoa học ứng dụng mà không cần bằng chứng hỗ trợ thêm?" Và, tại sao các lựa chọn thay thế khác, chẳng hạn như log-normal, không, và có lẽ sẽ không giữ được?


Câu trả lời sẽ phụ thuộc vào loại việc bạn đang làm và độ nhạy của nó đối với độ lệch tiềm năng so với tính quy tắc (nghĩa là nếu bạn đang kiểm tra sự bằng nhau của phương sai bằng cách sử dụng phép thử tỷ lệ F, tốt hơn là bạn nên có các phân phối rất gần với bình thường ... nhưng nếu bạn đang xây dựng một khoảng t cho sự khác biệt về phương tiện, với các mẫu lớn, bạn có thể không cần phải có chúng rất gần với tính quy tắc). ... Và về khả năng chịu đựng của bạn (hoặc đối tượng của bạn) đối với loại tác động mà nó sẽ gây ra đối với suy luận bạn đang làm.
Glen_b -Reinstate Monica

Câu trả lời:


6

Tôi thấy câu hỏi của bạn thực sự thú vị. Chúng ta hãy có một số điều vào tài khoản:

  1. Nếu nói rằng một biến quan sát là liên tục trong cuộc sống thực sẽ luôn là loại sai, bởi vì rất khó để đo thực sự liên tục.
  2. Bây giờ thêm các thuộc tính của biến ngẫu nhiên bình thường : phạm vi , phân phối đối xứng (mean = mode = median), hàm mật độ xác suất có điểm uốn tại và .( - ; + ) f X ( x ) x = μ - σ x = μ + σN(μ,σ2)(;+)fX(x)x=μσx=μ+σ
  3. Để nói rằng một biến ngẫu nhiên theo phân phối Log-Normal ngụ ý rằng biến tuân theo phân phối chuẩn.Y = l o g ( X )XY=log(X)

Như đã nói, để nói rằng bất kỳ biến quan sát nào tuân theo phân phối Bình thường hoặc Log-Bình thường nghe có vẻ điên rồ. Trong thực tế, những gì đã làm là bạn đo độ lệch của các tần số quan sát được từ các tần số dự kiến, nếu biến đó đến từ một dân số bình thường (hoặc bất kỳ phân phối nào khác). Nếu bạn có thể nói rằng những sai lệch đó chỉ là ngẫu nhiên, bởi vì bạn đang lấy mẫu, thì bạn có thể nói điều gì đó như không đủ bằng chứng để bác bỏ giả thuyết khống rằng biến này xuất phát từ một dân số bình thường , được dịch sang chúng tôi sẽ hoạt động như thể ( giả sử rằng) biến theo một phân phối bình thường .

Trả lời câu hỏi đầu tiên của bạn, tôi không nghĩ rằng có ai đó táo bạo nói rằng một biến được cho là được phân phối bình thường mà không có thêm bằng chứng . Để nói điều gì đó tương tự, bạn cần ít nhất một cốt truyện qq, biểu đồ, kiểm tra mức độ phù hợp hoặc kết hợp cả hai.

Để trả lời câu hỏi thứ hai, mối quan tâm đặc biệt trong phân phối bình thường là nhiều thử nghiệm cổ điển dựa trên giả định về tính quy tắc của biến, như thử nghiệm t hoặc -test cho phương sai. Vì vậy, tính bình thường đơn giản hóa công việc, đó là tất cả.χ2


Cảm ơn bạn đã trả lời của bạn, mà chạm vào nhiều điểm quan trọng. Tuy nhiên, tôi có xu hướng nghĩ rằng mọi thứ trong "thế giới thực" của khoa học ứng dụng ít cấu trúc hơn và một tiếp tuyến trực tiếp thường được sử dụng để đảm nhận tính quy tắc.
Antoni Parellada

1
Một cái gì đó mà tôi đã không đề cập đến là một phần khác của lịch sử nếu phân phối bình thường: đó là phân phối giới hạn của tiêu chuẩn hóa một tổng số các biến ngẫu nhiên, như đã nêu trong định lý về giới hạn trung tâm. Nếu bạn có thể nói rằng biến của bạn là tổng của nhiều biến ngẫu nhiên iid, như trong lý do đằng sau chuyển động brownian, thì bạn có thể nói rằng đó là biến ngẫu nhiên bình thường. Đó là lối tắt hợp lệ duy nhất tôi biết. Tôi có thể bao gồm điều này trong câu trả lời nếu bạn muốn.
toneloy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.