Tôi sẽ đánh giá rất cao lời khuyên của bạn về vấn đề sau:
Tôi đã có một bộ dữ liệu lớn liên tục với rất nhiều số không (~ 95%) và tôi cần tìm cách tốt nhất để kiểm tra xem các tập con nhất định của nó có "thú vị" hay không, nghĩa là dường như không được rút ra từ cùng một phân phối như phần còn lại Lạm phát bằng không xuất phát từ thực tế là mỗi điểm dữ liệu dựa trên phép đo đếm có cả số 0 thực và lấy mẫu, nhưng kết quả là liên tục vì nó tính đến một số tham số khác được tính theo số đếm (và do đó, nếu số đếm bằng 0, kết quả là 0 cũng bằng không).
cách nào tốt nhất để làm việc này? Tôi có cảm giác rằng Wilcoxon và thậm chí các xét nghiệm hoán vị lực lượng vũ phu là không thỏa đáng khi chúng bị sai lệch bởi các số không này. Tập trung vào các phép đo khác không cũng loại bỏ các số 0 thực sự cực kỳ quan trọng. Các mô hình không lạm phát cho dữ liệu đếm được phát triển tốt, nhưng không phù hợp với trường hợp của tôi.
Tôi đã cân nhắc việc phù hợp với phân phối Tweedie cho dữ liệu và sau đó điều chỉnh glm trên answer = f (subset_label). Về mặt lý thuyết, điều này có vẻ khả thi, nhưng tôi tự hỏi liệu (a) đây có phải là quá mức không và (b) vẫn sẽ mặc nhiên cho rằng tất cả các số 0 đều là số 0 mẫu, tức là sẽ bị sai lệch theo cách tương tự (tốt nhất) như là một hoán vị?
Theo trực giác, có vẻ như có một loại thiết kế phân cấp kết hợp một thống kê nhị thức dựa trên tỷ lệ số không và, giả sử, một thống kê Wilcoxon được tính trên các giá trị khác không (hoặc, tốt hơn, các giá trị khác không được bổ sung với một phần của số không dựa trên một số trước). Âm thanh như một mạng Bayes ...
Hy vọng tôi không phải là người đầu tiên gặp vấn đề này, vì vậy sẽ rất biết ơn nếu bạn có thể chỉ cho tôi các kỹ thuật hiện có phù hợp ...
Cảm ơn nhiều!