Khi giải quyết các vấn đề kinh doanh bằng cách sử dụng dữ liệu, thông thường có ít nhất một giả định chính rằng số liệu thống kê cổ điển dưới chân không hợp lệ. Hầu hết thời gian, không ai bận tâm để kiểm tra các giả định đó để bạn không bao giờ thực sự biết.
Ví dụ, cho đến nay, rất nhiều số liệu web phổ biến là "đuôi dài" (so với phân phối bình thường), cho đến nay, tài liệu tốt đến nỗi chúng tôi coi đó là điều hiển nhiên. Một ví dụ khác, các cộng đồng trực tuyến - ngay cả trong các cộng đồng có hàng ngàn thành viên, có tài liệu rõ rằng cho đến nay phần đóng góp / tham gia lớn nhất trong nhiều cộng đồng này là do một nhóm 'siêu cộng tác viên' rất nhỏ. (Ví dụ, một vài tháng trước, ngay sau khi API SO được cung cấp ở phiên bản beta, một thành viên StackOverflow đã công bố một phân tích ngắn gọn từ dữ liệu anh ta thu thập được thông qua API; kết luận của anh ta - ít hơn một phần trăm số thành viên SO chiếm phần lớn hoạt động trên SO (có lẽ là đặt câu hỏi và trả lời chúng), 1-2% khác chiếm phần còn lại và phần lớn các thành viên không làm gì cả).
Phân phối của loại đó - một lần nữa thường xuyên hơn quy tắc chứ không phải ngoại lệ - thường được mô hình hóa tốt nhất với hàm mật độ luật công suất . Đối với các loại phân phối này, ngay cả định lý giới hạn trung tâm cũng có vấn đề khi áp dụng.
Vì vậy, với sự phong phú của các quần thể như thế này khiến các nhà phân tích quan tâm, và cho rằng các mô hình cổ điển thực hiện rất kém trên các dữ liệu này, và cho rằng các phương pháp mạnh mẽ và kháng cự đã xuất hiện trong một thời gian (ít nhất là 20 năm, tôi tin) chúng không được sử dụng thường xuyên hơn? (Tôi cũng tự hỏi tại sao tôi không sử dụng chúng thường xuyên hơn, nhưng đó không thực sự là một câu hỏi cho CrossValidated .)
Vâng, tôi biết rằng có những chương sách giáo khoa dành hoàn toàn cho thống kê mạnh mẽ và tôi biết có (một vài) Gói R ( mạnh mẽ là thứ tôi quen thuộc và sử dụng), v.v.
Tuy nhiên, với những lợi thế rõ ràng của các kỹ thuật này, chúng thường rõ ràng là công cụ tốt hơn cho công việc-- tại sao chúng không được sử dụng thường xuyên hơn ? Chúng ta không nên hy vọng sẽ thấy các số liệu thống kê mạnh mẽ (và kháng) được sử dụng thường xuyên hơn (thậm chí có thể là giả định) so với các tương tự cổ điển?
Giải thích thực chất (nghĩa là kỹ thuật) mà tôi đã nghe là các kỹ thuật mạnh mẽ (tương tự đối với các phương pháp kháng) thiếu sức mạnh / độ nhạy của các kỹ thuật cổ điển. Tôi không biết điều này có thực sự đúng trong một số trường hợp không, nhưng tôi biết nó không đúng trong nhiều trường hợp.
Một từ cuối cùng của sự ưu tiên: có Tôi biết câu hỏi này không có một câu trả lời đúng nào cả; Rất ít câu hỏi trên trang web này làm. Hơn nữa, câu hỏi này là một cuộc điều tra chính hãng; đó không phải là một cái cớ để đưa ra quan điểm - tôi không có quan điểm ở đây, chỉ là một câu hỏi mà tôi hy vọng cho một số câu trả lời sâu sắc.