Phân phối bình thường và biến đổi đơn điệu


9

Tôi đã nghe nói rằng rất nhiều số lượng xảy ra trong tự nhiên thường được phân phối. Điều này thường được chứng minh bằng cách sử dụng định lý giới hạn trung tâm, nói rằng khi bạn tính trung bình một số lượng lớn các biến ngẫu nhiên iid, bạn sẽ có được một phân phối bình thường. Vì vậy, ví dụ, một đặc điểm được xác định bởi hiệu ứng cộng của một số lượng lớn gen có thể được phân phối một cách bình thường do các giá trị gen có thể hoạt động gần giống như các biến ngẫu nhiên của iid.

Bây giờ, điều làm tôi bối rối là tài sản của việc được phân phối bình thường rõ ràng không phải là bất biến dưới các biến đổi đơn điệu. Vì vậy, nếu có hai cách đo lường một cái gì đó có liên quan bằng một phép biến đổi đơn điệu, thì chúng khó có thể được phân phối bình thường (trừ khi phép biến đổi đơn điệu đó là tuyến tính). Chẳng hạn, chúng ta có thể đo kích thước hạt mưa theo đường kính, theo diện tích bề mặt hoặc theo thể tích. Giả sử hình dạng tương tự cho tất cả các hạt mưa, diện tích bề mặt tỷ lệ với bình phương đường kính và thể tích tỷ lệ với khối lập phương của đường kính. Vì vậy, tất cả các cách đo này không thể được phân phối bình thường.

Vì vậy, câu hỏi của tôi là liệu cách chia tỷ lệ cụ thể (nghĩa là sự lựa chọn cụ thể của phép biến đổi đơn điệu) mà theo đó phân phối trở nên bình thường, phải mang một ý nghĩa vật lý. Chẳng hạn, chiều cao nên được phân phối bình thường hay bình phương chiều cao, hay logarit của chiều cao, hay căn bậc hai của chiều cao? Có cách nào để trả lời câu hỏi đó bằng cách hiểu các quá trình ảnh hưởng đến chiều cao không?


Như tôi luôn hiểu, định lý giới hạn trung tâm không quy định một cái gì đó về việc tính trung bình một số lượng lớn các biến ngẫu nhiên iid. Thay vào đó, nó nói rằng khi lấy mẫu có nghĩa là, việc phân phối các phương tiện trở nên bình thường (không phụ thuộc vào phân phối nằm dưới những gì được lấy mẫu từ đó). Vì vậy, tôi đặt câu hỏi liệu tiền đề cho câu hỏi của bạn giữ.
Henrik

Nhưng, nếu giá trị trung bình lấy mẫu trở thành bình thường bất kể phân phối của phân phối cơ bản thì điều đó không giống như nói 'lấy trung bình một số lượng lớn các biến ngẫu nhiên iid' giúp chúng tôi phân phối bình thường. Đối với tôi dường như chúng là những tuyên bố tương đương.

Không phải trong mắt tôi (nhưng tôi muốn được thuyết phục khác). Trong một trường hợp (trường hợp tôi nghĩ là có nghĩa là CLT), bạn vẽ các mẫu từ một phân phối. Phương tiện của họ thường được phân phối. Những gì tôi hiểu từ câu hỏi và trích dẫn "trung bình một số lượng lớn các biến ngẫu nhiên iid" là sth differnt: các lần xuất hiện riêng lẻ từ các biến ngẫu nhiên iid khác nhau xác định (hoặc tạo nên) một đặc điểm. Do đó, không tính trung bình (nghĩa là tính toán trung bình) từ một phân phối duy nhất và do đó, không áp dụng CLT. Tôi nghĩ câu trả lời của mbq chỉ ra cùng một vấn đề.
Henrik

1
Vâng, phân phối không cần phải giống hệt nhau nếu một số điều kiện giữ. Xem: en.wikipedia.org/wiki/ Từ

1
@Henrik Có sự khác biệt có ý nghĩa nào giữa một mẫu từ mỗi N RV độc lập và phân phối giống hệt nhau và N đo độc lập của một RV không?
walkytalky

Câu trả lời:


5

Câu hỏi rất hay. Tôi cảm thấy rằng câu trả lời phụ thuộc vào việc bạn có thể xác định quy trình cơ bản làm phát sinh phép đo được đề cập hay không. Ví dụ, nếu bạn có bằng chứng cho thấy chiều cao là sự kết hợp tuyến tính của một số yếu tố (ví dụ: chiều cao của cha mẹ, chiều cao của ông bà, v.v.) thì sẽ là điều tự nhiên khi cho rằng chiều cao được phân phối bình thường. Mặt khác, nếu bạn có bằng chứng hoặc thậm chí có thể lý thuyết rằng nhật ký chiều cao là sự kết hợp tuyến tính của một số biến số (ví dụ: chiều cao của cha mẹ, nhật ký của chiều cao ông bà, v.v.) thì nhật ký chiều cao sẽ được phân phối bình thường.

Trong hầu hết các tình huống, chúng tôi không biết quy trình cơ bản thúc đẩy việc đo lường sự quan tâm. Vì vậy, chúng ta có thể làm một trong nhiều điều:

(a) Nếu phân bố chiều cao theo kinh nghiệm có vẻ bình thường thì chúng ta sử dụng mật độ bình thường để phân tích thêm, điều này mặc nhiên cho rằng chiều cao là sự kết hợp tuyến tính của một số biến.

(b) Nếu phân phối theo kinh nghiệm trông không bình thường thì chúng ta có thể thử một số biến đổi theo đề xuất của mbq (ví dụ: log (chiều cao)). Trong trường hợp này, chúng tôi ngầm giả định rằng biến được chuyển đổi (nghĩa là log (chiều cao)) là sự kết hợp tuyến tính của một số biến.

(c) Nếu (a) hoặc (b) không giúp đỡ thì chúng ta phải từ bỏ những lợi thế mà CLT và một giả định về tính quy tắc mang lại cho chúng ta và mô hình biến bằng cách sử dụng một số phân phối khác.


5

Việc thay đổi kích thước của một biến cụ thể, khi có thể, liên quan đến một số thang đo dễ hiểu vì lý do nó giúp làm cho mô hình kết quả có thể hiểu được. Tuy nhiên, việc chuyển đổi kết quả không nhất thiết phải mang một ý nghĩa vật lý. Về cơ bản, bạn phải tham gia vào một sự đánh đổi giữa việc vi phạm giả định về tính quy tắc và tính dễ hiểu của mô hình của bạn. Những gì tôi muốn làm trong những tình huống này là có dữ liệu gốc, dữ liệu được chuyển đổi theo cách có ý nghĩa và dữ liệu được chuyển đổi theo cách bình thường nhất. Nếu dữ liệu được chuyển đổi theo cách có ý nghĩa giống như kết quả khi dữ liệu được chuyển đổi theo cách làm cho nó bình thường nhất, Tôi báo cáo nó theo cách có thể hiểu được với một ghi chú bên lề rằng các kết quả là giống nhau trong trường hợp dữ liệu được chuyển đổi tối ưu (và / hoặc không được chuyển đổi). Khi dữ liệu chưa được xử lý đặc biệt kém, tôi tiến hành phân tích với dữ liệu được chuyển đổi nhưng cố hết sức để báo cáo kết quả theo các đơn vị chưa được dịch.

Ngoài ra, tôi nghĩ rằng bạn có một quan niệm sai lầm trong tuyên bố của mình rằng "số lượng xảy ra trong tự nhiên thường được phân phối". Điều này chỉ đúng trong trường hợp giá trị "được xác định bởi hiệu ứng cộng của một số lượng lớn" các yếu tố độc lập. Đó là, phương tiện và tổng thường được phân phối bất kể phân phối cơ bản mà chúng rút ra, khi mà các giá trị riêng lẻ không được dự kiến ​​sẽ được phân phối bình thường. Như đã được ví dụ, các lần rút tiền riêng lẻ từ phân phối nhị thức không nhìn hoàn toàn bình thường, nhưng phân phối tổng của 30 lần rút từ phân phối nhị thức trông khá bình thường.


5

Tôi phải thừa nhận rằng tôi không thực sự hiểu câu hỏi của bạn:

  • ví dụ hạt mưa của bạn không thỏa mãn lắm vì điều này không minh họa thực tế rằng hành vi Gaussian xuất phát từ "trung bình của một số lượng lớn các biến ngẫu nhiên iid".

  • XY1+Giáo dục+YNNf(Y1)+Giáo dục+f(YN)N

  • Xf(X)

  • bạn có thể trích dẫn một số ví dụ thực tế về hành vi Gaussian (đời thực) đến từ tính trung bình: điều này không phổ biến lắm! Hành vi Gaussian thường được sử dụng trong thống kê như là một xấp xỉ thô đầu tiên vì các tính toán rất dễ điều khiển. Khi các nhà vật lý sử dụng xấp xỉ hài hòa, các nhà thống kê sử dụng xấp xỉ Gaussian.


nguyên lý entropy tối đa cũng là một lý do khác tại sao phân phối Gaussian được sử dụng. Ví dụ, những lý do tốt để sử dụng các lỗi Gaussian trong mô hình tuyến tính, ngoại trừ khả năng lưu hành là gì?
Alekk

5

Vipul, bạn không hoàn toàn chính xác trong câu hỏi của bạn.

Điều này thường được chứng minh bằng cách sử dụng định lý giới hạn trung tâm, nói rằng khi bạn tính trung bình một số lượng lớn các biến ngẫu nhiên iid, bạn sẽ có được một phân phối bình thường.

Tôi không hoàn toàn chắc chắn đây là những gì bạn đang nói, nhưng hãy nhớ rằng những hạt mưa trong ví dụ của bạn không phải là các biến ngẫu nhiên. Giá trị trung bình được tính bằng cách lấy mẫu một số lượng hạt mưa nhất định là một biến ngẫu nhiên và vì phương tiện được tính bằng cách sử dụng cỡ mẫu đủ lớn, nên việc phân phối trung bình mẫu đó là bình thường.

Định luật về số lượng lớn nói rằng giá trị của mẫu đó có nghĩa là hội tụ với giá trị trung bình của dân số (mạnh hay yếu tùy thuộc vào loại hội tụ).

CLT nói rằng trung bình mẫu, gọi nó là XM (n), là một biến ngẫu nhiên, có phân phối, giả sử G (n). Khi n tiến đến vô hạn, phân phối đó là phân phối bình thường. CLT là tất cả về sự hội tụ trong phân phối , không phải là một khái niệm cơ bản.

Các quan sát bạn vẽ (đường kính, diện tích, thể tích) hoàn toàn không phải là bình thường. Họ có thể sẽ không được nếu bạn âm mưu chúng. Nhưng, mẫu có nghĩa là từ việc thực hiện cả ba quan sát sẽ có phân phối bình thường. Và, khối lượng sẽ không phải là khối lập phương của đường kính, cũng không phải diện tích là hình vuông của đường kính. Bình phương của các khoản tiền sẽ không phải là tổng của các hình vuông, trừ khi bạn gặp may mắn một cách kỳ lạ.


4

Đơn giản là CLT (cũng không phải bất kỳ định lý nào khác) không nói rõ rằng mọi đại lượng trong vũ trụ thường được phân phối. Thật vậy, các nhà thống kê thường sử dụng các phép biến đổi đơn điệu để cải thiện tính quy tắc, vì vậy họ có thể sử dụng các công cụ yêu thích của họ.


4

Tôi nghĩ rằng bạn đã hiểu sai (một nửa) việc sử dụng thống kê thực hiện phân phối bình thường nhưng tôi thực sự thích câu hỏi của bạn.

Tôi không nghĩ rằng đó là một ý tưởng tốt để giả định tính bình thường một cách có hệ thống và tôi thừa nhận nó được thực hiện vào lúc nào đó (có thể vì phân phối bình thường có thể dễ dàng, không chính thống ...) mà không cần xác minh. Do đó nhận xét của bạn về bản đồ đơn điệu là tuyệt vời!

Tuy nhiên, việc sử dụng mạnh mẽ tính quy phạm xuất hiện khi bạn xây dựng cho mình các số liệu thống kê mới, chẳng hạn như số liệu thống kê xuất hiện khi bạn áp dụng phần đối lập theo kinh nghiệm của kỳ vọng: ý nghĩa thực nghiệm . Do đó, ý nghĩa thực nghiệm và nói chung là làm mịn là những gì làm cho tính bình thường xuất hiện ở mọi nơi ...


2

Cả một biến ngẫu nhiên và nhiều biến đổi của nó có thể xấp xỉ bình thường; thật vậy, nếu phương sai nhỏ so với giá trị trung bình, có thể là một loạt các phép biến đổi rất rộng trông khá bình thường.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 biểu đồ cho thấy sự gần như bình thường

( bấm vào để xem phiên bản lớn hơn )

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.