"Có một từ tốt hơn cho phân phối đó?"
Có một sự khác biệt đáng giá ở đây giữa việc sử dụng các từ để mô tả các thuộc tính của phân phối, so với việc cố gắng tìm "tên" cho phân phối để bạn có thể xác định đó là (khoảng) một thể hiện của phân phối chuẩn cụ thể: một trong đó có một công thức hoặc các bảng thống kê có thể tồn tại cho hàm phân phối của nó và bạn có thể ước tính các tham số của nó. Trong trường hợp sau này, bạn có thể sử dụng phân phối có tên, ví dụ: "normal / Gaussian" (hai thuật ngữ thường đồng nghĩa với nhau), như một mô hình nắm bắt một số tính năng chính của dữ liệu của bạn, thay vì xác nhận dân số dữ liệu của bạn là rút ra từ chính xác sau phân phối lý thuyết. Để hơi hiểu nhầm George Box,tất cả các mô hình là "sai", nhưng một số là hữu ích. Nếu bạn đang suy nghĩ về phương pháp mô hình hóa, đáng để xem xét những tính năng bạn muốn kết hợp và mức độ phức tạp hoặc phức tạp mà bạn muốn mô hình của mình trở nên.
Bị lệch một cách tích cực là một ví dụ mô tả một tài sản mà phân phối có, nhưng không tiến gần đến việc chỉ định phân phối ngoài giá nào là "mô hình phù hợp". Nó loại trừ một số ứng cử viên, ví dụ phân phối Gaussian (tức là bình thường) có độ lệch bằng 0 nên sẽ không phù hợp để mô hình hóa dữ liệu của bạn nếu độ nghiêng là một tính năng quan trọng. Có thể có các thuộc tính khác của dữ liệu cũng quan trọng đối với bạn, ví dụ: đó là không chính thống (chỉ có một đỉnh) hoặc bị giới hạn trong khoảng từ 0 đến 24 giờ (hoặc từ 0 đến 1, nếu bạn viết nó dưới dạng phân số trong ngày) hoặc có khối lượng xác suất tập trung ở mức 0 (vì có những người hoàn toàn không xem youtube vào một ngày nhất định).kurtosis . Và điều đáng ghi nhớ là ngay cả khi phân phối của bạn có hình dạng "bướu" hoặc "đường cong hình chuông" và có độ lệch bằng 0 hoặc gần bằng 0, thì nó không tự động tuân theo phân phối bình thường là "chính xác" cho nó! Mặt khác, ngay cả khi dân số dữ liệu của bạn được rút ra từ thực tế đã thực hiện theo một phân phối cụ thể, do lỗi lấy mẫutập dữ liệu của bạn có thể không hoàn toàn giống với nó. Các tập dữ liệu nhỏ có khả năng "nhiễu" và có thể không rõ liệu một số tính năng nhất định bạn có thể thấy, ví dụ như các bướu nhỏ hoặc đuôi không đối xứng bổ sung, là các thuộc tính của dân số cơ bản mà dữ liệu được rút ra từ đó (và có lẽ nên được kết hợp trong mô hình của bạn) hoặc liệu chúng chỉ là vật phẩm từ mẫu cụ thể của bạn (và cho mục đích lập mô hình nên được bỏ qua). Nếu bạn có một tập dữ liệu nhỏ và độ lệch gần bằng 0, thì việc phân phối cơ bản là thực sự đối xứng. Tập dữ liệu của bạn càng lớn và độ lệch càng lớn, điều này càng trở nên hợp lý - nhưng trong khi bạn có thể thực hiện một bài kiểm tra quan trọng để xem mức độ thuyết phục của dữ liệu mà bạn cung cấp cho sự sai lệch trong dân số được rút ra từ đó, điều này có thể thiếu điểm là liệu phân phối bình thường (hoặc khác không) có phù hợp như một mô hình ...
Những thuộc tính nào của dữ liệu thực sự quan trọng đối với các mục đích bạn dự định mô hình hóa nó? Lưu ý rằng nếu độ nghiêng nhỏ một cách hợp lý và bạn không quan tâm lắm đến nó, ngay cả khi dân số cơ bản thực sự bị lệch , thì bạn vẫn có thể tìm thấy phân phối bình thường một mô hình hữu ích để ước tính phân phối thời gian xem thực sự này. Nhưng bạn nên kiểm tra xem điều này không kết thúc bằng những dự đoán ngớ ngẩn. Bởi vì phân phối bình thường không có giá trị cao nhất hoặc thấp nhất có thể, nên mặc dù giá trị cực kỳ cao hoặc thấp ngày càng khó xảy ra, bạn sẽ luôn thấy rằng mô hình của mình dự đoán có một sốxác suất xem số giờ âm mỗi ngày hoặc hơn 24 giờ. Điều này trở nên rắc rối hơn cho bạn nếu xác suất dự đoán của những sự kiện không thể như vậy trở nên cao. Một phân phối đối xứng như bình thường sẽ dự đoán rằng nhiều người sẽ theo dõi thời gian dài hơn mức trung bình 50% so với giá trị trung bình, vì xem dưới mức trung bình dưới 50%. Nếu thời gian xem rất sai lệch, thì loại dự đoán này cũng có thể vô lý đến mức ngớ ngẩn và đưa ra kết quả sai lệch nếu bạn lấy kết quả của mô hình và sử dụng chúng làm đầu vào cho mục đích khác (ví dụ: bạn Đang chạy mô phỏng thời gian xem để tính toán lập lịch quảng cáo tối ưu). Nếu độ lệch rất đáng chú ý, bạn muốn chụp nó như một phần của mô hình của mình, thìphân phối bình thường có thể phù hợp hơn. Nếu bạn muốn chụp cả xiên và kurtosis, thì hãy xem xét t nghiêng . Nếu bạn muốn kết hợp các giới hạn trên và dưới có thể về mặt vật lý, thì hãy xem xét sử dụng các phiên bản rút gọn của các bản phân phối này. Nhiều phân phối xác suất khác tồn tại có thể bị sai lệch và không chính thống (đối với các lựa chọn tham số phù hợp) như phân phối F hoặc gamma , và một lần nữa bạn có thể cắt bớt chúng để chúng không dự đoán thời gian xem cao vô cùng. Bản phân phối betacó thể là một lựa chọn tốt nếu bạn đang lập mô hình phần của ngày dành cho việc xem, vì điều này luôn bị giới hạn trong khoảng từ 0 đến 1 mà không cần cắt ngắn thêm. Nếu bạn muốn kết hợp nồng độ xác suất ở mức chính xác bằng 0 do người không theo dõi, thì hãy xem xét xây dựng theo mô hình rào cản .
Nhưng tại thời điểm bạn đang cố gắng đưa vào mọi tính năng bạn có thể xác định từ dữ liệu của mình và xây dựng một mô hình tinh vi hơn bao giờ hết, có lẽ bạn nên tự hỏi tại sao bạn lại làm điều này? Sẽ có một lợi thế cho một mô hình đơn giản hơn, ví dụ như nó dễ dàng hơn để làm việc với toán học hoặc có ít tham số hơn để ước tính? Nếu bạn lo ngại rằng việc đơn giản hóa như vậy sẽ khiến bạn không thể nắm bắt được tất cả các thuộc tính mà bạn quan tâm, thì có lẽ không có phân phối "ngoài giá" nào thực hiện được những gì bạn muốn. Tuy nhiên, chúng tôi không bị hạn chế làm việc với các bản phân phối có tên mà các thuộc tính toán học đã được làm rõ trước đó. Thay vào đó, hãy xem xét sử dụng dữ liệu của bạn để xây dựng hàm phân phối theo kinh nghiệm. Điều này sẽ nắm bắt tất cả các hành vi có trong dữ liệu của bạn, nhưng bạn không còn có thể đặt cho nó một cái tên như "bình thường" hay "gamma", cũng như bạn không thể áp dụng các thuộc tính toán học chỉ liên quan đến một phân phối cụ thể. Chẳng hạn, "95% dữ liệu nằm trong 1,96 độ lệch chuẩn của quy tắc trung bình" dành cho dữ liệu được phân phối thông thường và có thể không áp dụng cho phân phối của bạn; mặc dù lưu ý rằng một số quy tắc áp dụng cho tất cả các bản phân phối, ví dụ như đảm bảo bất bình đẳng của Ch Quashev ít nhất75% dữ liệu của bạn phải nằm trong hai độ lệch chuẩn của giá trị trung bình, bất kể độ lệch. Thật không may, phân phối theo kinh nghiệm cũng sẽ kế thừa tất cả các thuộc tính của tập dữ liệu của bạn hoàn toàn do lỗi lấy mẫu, không chỉ các phân bổ thuộc sở hữu của dân số cơ sở, do đó bạn có thể thấy một biểu đồ phân phối theo kinh nghiệm của bạn có một số điểm nổi bật mà dân số không có . Bạn có thể muốn điều tra các hàm phân phối theo kinh nghiệm đã được làm mịn hoặc tốt hơn nữa là tăng kích thước mẫu của bạn.
Tóm lại: mặc dù phân phối bình thường có độ lệch bằng 0, nhưng thực tế dữ liệu của bạn bị sai lệch không loại trừ phân phối bình thường như một mô hình hữu ích, mặc dù điều đó cho thấy một số phân phối khác có thể phù hợp hơn. Bạn nên xem xét các thuộc tính khác của dữ liệu khi chọn mô hình của mình, bên cạnh độ lệch và xem xét quá các mục đích bạn sẽ sử dụng mô hình cho. Thật an toàn khi nói rằng dân số theo dõi thời gian thực sự của bạn không thực sự tuân theo một số phân phối nổi tiếng, được đặt tên, nhưng điều này không có nghĩa là một phân phối như vậy chắc chắn sẽ vô dụng như một mô hình. Tuy nhiên, đối với một số mục đích, bạn có thể chỉ muốn sử dụng bản phân phối theo kinh nghiệm, thay vì thử lắp một bản phân phối chuẩn cho nó.