Trong một số trường hợp, có vẻ như rõ ràng rằng lý thuyết có thể hoạt động tốt nhất (chiều dài đuôi chuột có thể được phân phối bình thường).
Độ dài đuôi chắc chắn không được phân phối bình thường.
Phân phối bình thường có xác suất khác không lấy giá trị âm; chiều dài đuôi không.
Dòng nổi tiếng của George Box , " tất cả các mô hình đều sai, nhưng một số là hữu ích " làm cho quan điểm khá tốt. Những trường hợp mà chúng ta có thể khẳng định một cách hợp lý tính bình thường (chứ không chỉ là tính chuẩn tắc gần đúng) thực sự rất hiếm, hầu như các sinh vật trong truyền thuyết, đôi khi gần như lóe ra khỏi khóe mắt.
Trong rất nhiều trường hợp có lẽ không có lý thuyết nào để mô tả một tập hợp dữ liệu, vì vậy bạn chỉ cần sử dụng một cái gì đó phù hợp với những gì bạn có khá tốt bất kể nó được phát triển ban đầu để mô tả?
Trong trường hợp số lượng bạn quan tâm không đặc biệt nhạy cảm với lựa chọn (miễn là các tính năng rộng của phân phối phù hợp với những gì đã biết), thì có, bạn chỉ có thể sử dụng thứ gì đó phù hợp khá tốt.
Trong trường hợp có độ nhạy cao hơn, 'chỉ cần sử dụng thứ gì đó phù hợp' là không đủ. Chúng tôi có thể sử dụng một số cách tiếp cận không đưa ra các giả định cụ thể (có thể là các thủ tục miễn phí phân phối, như hoán vị, bootstrapping hoặc các cách tiếp cận lấy mẫu khác hoặc các thủ tục mạnh mẽ). Ngoài ra, chúng tôi có thể định lượng độ nhạy cảm với giả định phân phối, chẳng hạn như thông qua mô phỏng (thực sự tôi nghĩ rằng đây thường là một ý tưởng tốt).
dường như có vấn đề là có lẽ bạn chỉ nên sử dụng phân phối theo kinh nghiệm nếu bạn thực sự không có ý tưởng.
Tôi sẽ không mô tả rằng đó là một vấn đề - dựa trên suy luận về phân phối theo kinh nghiệm chắc chắn là một cách tiếp cận hợp pháp phù hợp với nhiều loại vấn đề (hoán vị / ngẫu nhiên và bootstrapping là hai ví dụ).
Có ai có cách tiếp cận / suy nghĩ mạch lạc về vấn đề này không?
nói chung, trong rất nhiều trường hợp, tôi có xu hướng xem xét các câu hỏi như:
1) Tôi hiểu gì * về cách các phương tiện (hoặc số lượng loại vị trí khác) hoạt động đối với dữ liệu của biểu mẫu này?
* (cho dù từ lý thuyết, hoặc kinh nghiệm về dạng dữ liệu này, hoặc lời khuyên của chuyên gia, hoặc nếu cần thiết, từ chính dữ liệu, mặc dù điều đó mang đến những vấn đề người ta phải giải quyết)
2) Điều gì về sự lây lan (phương sai, IQR, v.v.) - nó hoạt động như thế nào?
3) Điều gì về các tính năng phân phối khác (giới hạn, độ lệch, sự rời rạc, v.v.)
4) Điều gì về sự phụ thuộc, tính không đồng nhất của quần thể, xu hướng đôi khi các giá trị rất khác biệt, v.v.
Kiểu xem xét này có thể hướng dẫn lựa chọn giữa một mô hình bình thường, GLM, một số mô hình khác hoặc một cách tiếp cận mạnh mẽ hoặc không phân phối (như cách tiếp cận bootstrapping hoặc hoán vị / ngẫu nhiên, bao gồm các thủ tục dựa trên xếp hạng)