Là một phân phối bình thường, nhưng bị lệch nhiều, được coi là Gaussian?


12

Tôi có câu hỏi này: Bạn nghĩ việc phân phối thời gian mỗi ngày trên YouTube trông như thế nào?

Câu trả lời của tôi là nó có thể được phân phối bình thường và rất lệch trái. Tôi hy vọng có một chế độ mà hầu hết người dùng dành khoảng thời gian trung bình và sau đó là một cái đuôi dài bên phải vì một số người dùng áp đảo người dùng.

Đó có phải là một câu trả lời công bằng? Có một từ tốt hơn cho phân phối đó?


4
Như một số câu trả lời đề cập nhưng không nhấn mạnh, độ lệch được đặt tên không chính thức cho đuôi dài hơn nếu có, do đó, lệch phải nếu đuôi phải dài hơn. Trái và phải như được sử dụng trong bối cảnh này, cả hai đều đoán trước một màn hình theo quy ước rằng cường độ được hiển thị trên trục hoirizontal. Nếu điều đó nghe có vẻ quá rõ ràng, hãy xem xét hiển thị trong Trái đất và khoa học môi trường trong đó cường độ là chiều cao hoặc chiều sâu và được hiển thị theo chiều dọc. In nhỏ: một số biện pháp độ lệch có thể bằng 0 ngay cả khi phân phối bị lệch về mặt hình học.
Nick Cox

1
Tổng thời gian mỗi ngày cho tất cả người dùng? hoặc thời gian mỗi ngày cho mỗi người? Nếu sau này, thì chắc chắn có một mức tăng đột biến lớn vừa phải ở 0, trong trường hợp đó bạn có thể cần phân phối kiểu 'cành và phiến' với đồng bằng Dirac ở mức 0.
innisfree

6
"Bình thường" đồng nghĩa với "Gaussian" và các phân phối Gaussian, còn được gọi là phân phối bình thường, không bị sai lệch.
Michael Hardy

Tôi thấy câu hỏi trong tiêu đề khác nhiều so với câu hỏi trong văn bản cơ thể. Hoặc ít nhất là tiêu đề rất khó hiểu. Không có phân phối là "bình thường nhưng rất sai lệch" đó là một mâu thuẫn. Ngoài ra, phân phối Gaussian được xác định rất rõ và hoàn toàn không giống như phân phối thời gian mỗi ngày trên YouTube. Vì vậy, câu trả lời cho câu hỏi trong tiêu đề là không lớn. f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus

2
Ngoài ra, câu hỏi ở cuối 'có từ nào tốt hơn cho phân phối đó không?' là rất mơ hồ hoặc rộng. Thông tin dường như chỉ là 'một chế độ' và 'đuôi dài bên phải' (phần 'có lẽ được phân phối bình thường' không có ý nghĩa gì). Có thể có nhiều bản phân phối thỏa mãn các điều kiện này. Thật đáng ngạc nhiên khi câu hỏi này thu hút hơn mười câu trả lời và ít nhất là nhiều đề xuất cho phân phối thay thế trước khi chúng tôi thực sự cố gắng làm rõ câu hỏi (thậm chí không có dữ liệu).
Sextus Empiricus

Câu trả lời:


14

Một phần mỗi ngày chắc chắn không phải là tiêu cực. Điều này loại trừ phân phối bình thường, có khối lượng xác suất trên toàn bộ trục thực - đặc biệt là trên nửa âm.

Phân phối luật quyền lực thường được sử dụng để mô hình hóa những thứ như phân phối thu nhập, quy mô của các thành phố, v.v ... Chúng không âm và thường rất sai lệch. Đây sẽ là lần đầu tiên tôi thử trong thời gian làm người mẫu dành cho việc xem YouTube. (Hoặc theo dõi các câu hỏi CrossValidated.)

Thông tin thêm về luật quyền lực có thể được tìm thấy ở đây hoặc ở đây , hoặc trong thẻ của chúng tôi .


16
Bạn hoàn toàn chính xác rằng các bản phân phối bình thường có hỗ trợ trên dòng thực. Tuy nhiên ... chúng không phải là một mô hình khủng khiếp cho một số phẩm chất tích cực nghiêm ngặt, như chiều cao hoặc cân nặng của người trưởng thành, trong đó giá trị trung bình và phương sai sao cho các giá trị âm rất khó xảy ra trong mô hình.
Matt Krause

2
@MattKrause Đó thực sự là một câu hỏi hay - có xác suất tương tự tôi sẽ '10 cm trên hoặc dưới chiều cao trung bình 'hoặc '10 phần trăm trên hoặc dưới chiều cao trung bình' không? Chỉ trường hợp đầu tiên có thể đảm bảo phân phối bình thường.
Tomáš Kafka

1
@MattKrause: Tôi hoàn toàn đồng ý, theo nghĩa chung. Tuy nhiên, câu hỏi hiện tại là về tỷ lệ thời gian hàng ngày dành cho việc xem YouTube. Chúng tôi không có bất kỳ dữ liệu nào, nhưng tôi sẽ vô cùng ngạc nhiên nếu phân phối thậm chí là đối xứng từ xa.
Stephan Kolassa

43

Một phân phối bình thường không bị sai lệch cao. Đó là một mâu thuẫn. Thông thường các biến phân phối có skew = 0.


1
Một cách tốt hơn để mô tả phân phối là gì? Có một từ cho loại phân phối mà nó tập trung xung quanh một chế độ và sau đó có một cái đuôi dài?
Cauder 30/03/19

13
Unimodal và xiên là gần như tôi có thể đến ...
jbowman

9
Bên cạnh đó, thật đáng kinh ngạc khi mọi người dành thời gian của mình để giúp những người khác làm tốt hơn những thứ này. Tôi biết điều đó không cần phải nói, nhưng thật tuyệt vời những gì cả hai bạn làm!
Cauder 30/03/19

6
Có, nhưng đáng để làm rõ rằng tuyên bố đó liên quan đến dân số phân phối bình thường. Một mẫu được rút ra từ dân số đó có thể rất sai lệch.
gung - Phục hồi Monica

Khi giá trị nghiêng nhỏ ("nhỏ" được quyết định bởi những người xử lý các số liệu thống kê trong câu hỏi), bạn vẫn có thể coi dân số là bình thường, mặc dù có lỗi nhỏ.
Carl Witthoft


13

Nó có thể là một bản phân phối bình thường. Như đã đề cập ở đây :

Thời gian dừng của người dùng trên các bài báo trực tuyến (truyện cười, tin tức, v.v.) tuân theo bản phân phối thông thường.

Các tài liệu tham khảo được đưa ra là: Yin, Peifeng; Lạc, Ping; Lee, Vương-Chiến; Vương, Min (2013). Im lặng cũng là bằng chứng: diễn giải thời gian dừng lại cho khuyến nghị từ quan điểm tâm lý. Hội nghị quốc tế ACM về KDD.


7

"Có một từ tốt hơn cho phân phối đó?"

Có một sự khác biệt đáng giá ở đây giữa việc sử dụng các từ để mô tả các thuộc tính của phân phối, so với việc cố gắng tìm "tên" cho phân phối để bạn có thể xác định đó là (khoảng) một thể hiện của phân phối chuẩn cụ thể: một trong đó có một công thức hoặc các bảng thống kê có thể tồn tại cho hàm phân phối của nó và bạn có thể ước tính các tham số của nó. Trong trường hợp sau này, bạn có thể sử dụng phân phối có tên, ví dụ: "normal / Gaussian" (hai thuật ngữ thường đồng nghĩa với nhau), như một mô hình nắm bắt một số tính năng chính của dữ liệu của bạn, thay vì xác nhận dân số dữ liệu của bạn là rút ra từ chính xác sau phân phối lý thuyết. Để hơi hiểu nhầm George Box,tất cả các mô hình là "sai", nhưng một số là hữu ích. Nếu bạn đang suy nghĩ về phương pháp mô hình hóa, đáng để xem xét những tính năng bạn muốn kết hợp và mức độ phức tạp hoặc phức tạp mà bạn muốn mô hình của mình trở nên.

Bị lệch một cách tích cực là một ví dụ mô tả một tài sản mà phân phối có, nhưng không tiến gần đến việc chỉ định phân phối ngoài giá nào là "mô hình phù hợp". Nó loại trừ một số ứng cử viên, ví dụ phân phối Gaussian (tức là bình thường) có độ lệch bằng 0 nên sẽ không phù hợp để mô hình hóa dữ liệu của bạn nếu độ nghiêng là một tính năng quan trọng. Có thể có các thuộc tính khác của dữ liệu cũng quan trọng đối với bạn, ví dụ: đó là không chính thống (chỉ có một đỉnh) hoặc bị giới hạn trong khoảng từ 0 đến 24 giờ (hoặc từ 0 đến 1, nếu bạn viết nó dưới dạng phân số trong ngày) hoặc có khối lượng xác suất tập trung ở mức 0 (vì có những người hoàn toàn không xem youtube vào một ngày nhất định).kurtosis . Và điều đáng ghi nhớ là ngay cả khi phân phối của bạn có hình dạng "bướu" hoặc "đường cong hình chuông" và có độ lệch bằng 0 hoặc gần bằng 0, thì nó không tự động tuân theo phân phối bình thường là "chính xác" cho nó! Mặt khác, ngay cả khi dân số dữ liệu của bạn được rút ra từ thực tế đã thực hiện theo một phân phối cụ thể, do lỗi lấy mẫutập dữ liệu của bạn có thể không hoàn toàn giống với nó. Các tập dữ liệu nhỏ có khả năng "nhiễu" và có thể không rõ liệu một số tính năng nhất định bạn có thể thấy, ví dụ như các bướu nhỏ hoặc đuôi không đối xứng bổ sung, là các thuộc tính của dân số cơ bản mà dữ liệu được rút ra từ đó (và có lẽ nên được kết hợp trong mô hình của bạn) hoặc liệu chúng chỉ là vật phẩm từ mẫu cụ thể của bạn (và cho mục đích lập mô hình nên được bỏ qua). Nếu bạn có một tập dữ liệu nhỏ và độ lệch gần bằng 0, thì việc phân phối cơ bản là thực sự đối xứng. Tập dữ liệu của bạn càng lớn và độ lệch càng lớn, điều này càng trở nên hợp lý - nhưng trong khi bạn có thể thực hiện một bài kiểm tra quan trọng để xem mức độ thuyết phục của dữ liệu mà bạn cung cấp cho sự sai lệch trong dân số được rút ra từ đó, điều này có thể thiếu điểm là liệu phân phối bình thường (hoặc khác không) có phù hợp như một mô hình ...

Những thuộc tính nào của dữ liệu thực sự quan trọng đối với các mục đích bạn dự định mô hình hóa nó? Lưu ý rằng nếu độ nghiêng nhỏ một cách hợp lý và bạn không quan tâm lắm đến nó, ngay cả khi dân số cơ bản thực sự bị lệch , thì bạn vẫn có thể tìm thấy phân phối bình thường một mô hình hữu ích để ước tính phân phối thời gian xem thực sự này. Nhưng bạn nên kiểm tra xem điều này không kết thúc bằng những dự đoán ngớ ngẩn. Bởi vì phân phối bình thường không có giá trị cao nhất hoặc thấp nhất có thể, nên mặc dù giá trị cực kỳ cao hoặc thấp ngày càng khó xảy ra, bạn sẽ luôn thấy rằng mô hình của mình dự đoán có một sốxác suất xem số giờ âm mỗi ngày hoặc hơn 24 giờ. Điều này trở nên rắc rối hơn cho bạn nếu xác suất dự đoán của những sự kiện không thể như vậy trở nên cao. Một phân phối đối xứng như bình thường sẽ dự đoán rằng nhiều người sẽ theo dõi thời gian dài hơn mức trung bình 50% so với giá trị trung bình, vì xem dưới mức trung bình dưới 50%. Nếu thời gian xem rất sai lệch, thì loại dự đoán này cũng có thể vô lý đến mức ngớ ngẩn và đưa ra kết quả sai lệch nếu bạn lấy kết quả của mô hình và sử dụng chúng làm đầu vào cho mục đích khác (ví dụ: bạn Đang chạy mô phỏng thời gian xem để tính toán lập lịch quảng cáo tối ưu). Nếu độ lệch rất đáng chú ý, bạn muốn chụp nó như một phần của mô hình của mình, thìphân phối bình thường có thể phù hợp hơn. Nếu bạn muốn chụp cả xiên và kurtosis, thì hãy xem xét t nghiêng . Nếu bạn muốn kết hợp các giới hạn trên và dưới có thể về mặt vật lý, thì hãy xem xét sử dụng các phiên bản rút gọn của các bản phân phối này. Nhiều phân phối xác suất khác tồn tại có thể bị sai lệch và không chính thống (đối với các lựa chọn tham số phù hợp) như phân phối F hoặc gamma , và một lần nữa bạn có thể cắt bớt chúng để chúng không dự đoán thời gian xem cao vô cùng. Bản phân phối betacó thể là một lựa chọn tốt nếu bạn đang lập mô hình phần của ngày dành cho việc xem, vì điều này luôn bị giới hạn trong khoảng từ 0 đến 1 mà không cần cắt ngắn thêm. Nếu bạn muốn kết hợp nồng độ xác suất ở mức chính xác bằng 0 do người không theo dõi, thì hãy xem xét xây dựng theo mô hình rào cản .

Nhưng tại thời điểm bạn đang cố gắng đưa vào mọi tính năng bạn có thể xác định từ dữ liệu của mình và xây dựng một mô hình tinh vi hơn bao giờ hết, có lẽ bạn nên tự hỏi tại sao bạn lại làm điều này? Sẽ có một lợi thế cho một mô hình đơn giản hơn, ví dụ như nó dễ dàng hơn để làm việc với toán học hoặc có ít tham số hơn để ước tính? Nếu bạn lo ngại rằng việc đơn giản hóa như vậy sẽ khiến bạn không thể nắm bắt được tất cả các thuộc tính mà bạn quan tâm, thì có lẽ không có phân phối "ngoài giá" nào thực hiện được những gì bạn muốn. Tuy nhiên, chúng tôi không bị hạn chế làm việc với các bản phân phối có tên mà các thuộc tính toán học đã được làm rõ trước đó. Thay vào đó, hãy xem xét sử dụng dữ liệu của bạn để xây dựng hàm phân phối theo kinh nghiệm. Điều này sẽ nắm bắt tất cả các hành vi có trong dữ liệu của bạn, nhưng bạn không còn có thể đặt cho nó một cái tên như "bình thường" hay "gamma", cũng như bạn không thể áp dụng các thuộc tính toán học chỉ liên quan đến một phân phối cụ thể. Chẳng hạn, "95% dữ liệu nằm trong 1,96 độ lệch chuẩn của quy tắc trung bình" dành cho dữ liệu được phân phối thông thường và có thể không áp dụng cho phân phối của bạn; mặc dù lưu ý rằng một số quy tắc áp dụng cho tất cả các bản phân phối, ví dụ như đảm bảo bất bình đẳng của Ch Quashev ít nhất75% dữ liệu của bạn phải nằm trong hai độ lệch chuẩn của giá trị trung bình, bất kể độ lệch. Thật không may, phân phối theo kinh nghiệm cũng sẽ kế thừa tất cả các thuộc tính của tập dữ liệu của bạn hoàn toàn do lỗi lấy mẫu, không chỉ các phân bổ thuộc sở hữu của dân số cơ sở, do đó bạn có thể thấy một biểu đồ phân phối theo kinh nghiệm của bạn có một số điểm nổi bật mà dân số không có . Bạn có thể muốn điều tra các hàm phân phối theo kinh nghiệm đã được làm mịn hoặc tốt hơn nữa là tăng kích thước mẫu của bạn.

Tóm lại: mặc dù phân phối bình thường có độ lệch bằng 0, nhưng thực tế dữ liệu của bạn bị sai lệch không loại trừ phân phối bình thường như một mô hình hữu ích, mặc dù điều đó cho thấy một số phân phối khác có thể phù hợp hơn. Bạn nên xem xét các thuộc tính khác của dữ liệu khi chọn mô hình của mình, bên cạnh độ lệch và xem xét quá các mục đích bạn sẽ sử dụng mô hình cho. Thật an toàn khi nói rằng dân số theo dõi thời gian thực sự của bạn không thực sự tuân theo một số phân phối nổi tiếng, được đặt tên, nhưng điều này không có nghĩa là một phân phối như vậy chắc chắn sẽ vô dụng như một mô hình. Tuy nhiên, đối với một số mục đích, bạn có thể chỉ muốn sử dụng bản phân phối theo kinh nghiệm, thay vì thử lắp một bản phân phối chuẩn cho nó.



4

"Bình thường" và "Gaussian" có nghĩa chính xác là cùng một điều. Như các câu trả lời khác giải thích, phân phối mà bạn đang nói đến không bình thường / Gaussian, bởi vì phân phối đó gán xác suất cho mọi giá trị trên dòng thực, trong khi phân phối của bạn chỉ tồn tại giữa0 và 24.


3

Trong trường hợp có sẵn, vì thời gian mỗi ngày bị ràng buộc từ 0 đến 1 (nếu được định lượng dưới dạng một phần của ngày), các bản phân phối không bị ràng buộc ở trên (ví dụ: Pareto, skew-normal, Gamma, log-normal) sẽ không hoạt động, nhưng Beta sẽ hoạt động.


2

Làm thế nào về một mô hình rào cản?

Một mô hình rào cản có hai phần. Đầu tiên là thử nghiệm Bernoulli xác định xem bạn có sử dụng YouTube hay không. Nếu bạn không, thì thời gian sử dụng của bạn rõ ràng bằng không và bạn đã hoàn thành. Nếu bạn làm như vậy, bạn "vượt qua rào cản đó", thì thời gian sử dụng đến từ một số phân phối tích cực nghiêm ngặt khác.

Một khái niệm liên quan chặt chẽ là các mô hình không thổi phồng. Chúng được dùng để đối phó với tình huống chúng ta quan sát một loạt các số không, nhưng không thể phân biệt giữa số không luôn và số không đôi khi. Ví dụ, hãy xem xét số lượng thuốc lá mà một người hút thuốc mỗi ngày. Đối với những người không hút thuốc, con số đó luôn bằng không, nhưng một số người hút thuốc có thể không hút thuốc vào một ngày nhất định (hết thuốc lá? Trên một chuyến bay dài?). Không giống như mô hình rào cản, phân phối "người hút thuốc" ở đây nên bao gồm số không, nhưng những số liệu này bị 'thổi phồng' bởi sự đóng góp của những người không hút thuốc.


0

Nếu phân phối thực sự là một 'tập hợp con' của phân phối bình thường, bạn nên xem xét một mô hình cắt ngắn. Được sử dụng rộng rãi trong bối cảnh này là gia đình của các mô hình TOBIT.
Họ thực sự đề xuất một pdf có khối lượng xác suất (dương) ở mức 0 và sau đó là "cắt một phần của phân phối bình thường" cho các giá trị dương.
Tôi sẽ không gõ công thức ở đây và thay vào đó giới thiệu bạn đến Bài viết Wikipedia: https://en.wikipedia.org/wiki/Tobit_model


-4

Phân phối bình thường theo định nghĩa không bị lệch, vì vậy bạn không thể có cả hai thứ. Nếu phân phối bị lệch trái, thì nó không thể là Gaussian. Bạn sẽ phải chọn một cái khác! Điều gần nhất với yêu cầu của bạn tôi có thể nghĩ là:

https://en.wikipedia.org/wiki/Skew_n normal_distribution


5
Tôi đồng ý ngoại trừ việc OP khó hiểu về độ lệch trái và phải, như đã chỉ ra. Và @behold đã gợi ý câu trả lời sai trong câu trả lời. Vì vậy, tôi không thể thấy rằng điều này thêm vào câu trả lời hiện có.
Nick Cox

Nó tóm tắt nhiều trong số chúng trong một phản hồi ba dòng thẳng
David

4
Xin lỗi, nhưng đó vẫn là sự lặp lại.
Nick Cox

OK ... ai quan tâm?
David

4
Vâng, tôi làm; và bất cứ ai đã thêm +1 vào nhận xét của tôi (rõ ràng không phải tôi) và bất kỳ ai đánh giá thấp câu trả lời của bạn (không phải tôi, như nó xảy ra). Chủ đề này đã dài và lặp đi lặp lại; nhưng những bình luận dư thừa không cải thiện nó cho những độc giả tương lai.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.