Kiểm tra giả thuyết về dữ liệu liên tục tăng cao


10

Tôi sẽ đánh giá rất cao lời khuyên của bạn về vấn đề sau:

Tôi đã có một bộ dữ liệu lớn liên tục với rất nhiều số không (~ 95%) và tôi cần tìm cách tốt nhất để kiểm tra xem các tập con nhất định của nó có "thú vị" hay không, nghĩa là dường như không được rút ra từ cùng một phân phối như phần còn lại Lạm phát bằng không xuất phát từ thực tế là mỗi điểm dữ liệu dựa trên phép đo đếm có cả số 0 thực và lấy mẫu, nhưng kết quả là liên tục vì nó tính đến một số tham số khác được tính theo số đếm (và do đó, nếu số đếm bằng 0, kết quả là 0 cũng bằng không).

cách nào tốt nhất để làm việc này? Tôi có cảm giác rằng Wilcoxon và thậm chí các xét nghiệm hoán vị lực lượng vũ phu là không thỏa đáng khi chúng bị sai lệch bởi các số không này. Tập trung vào các phép đo khác không cũng loại bỏ các số 0 thực sự cực kỳ quan trọng. Các mô hình không lạm phát cho dữ liệu đếm được phát triển tốt, nhưng không phù hợp với trường hợp của tôi.

Tôi đã cân nhắc việc phù hợp với phân phối Tweedie cho dữ liệu và sau đó điều chỉnh glm trên answer = f (subset_label). Về mặt lý thuyết, điều này có vẻ khả thi, nhưng tôi tự hỏi liệu (a) đây có phải là quá mức không và (b) vẫn sẽ mặc nhiên cho rằng tất cả các số 0 đều là số 0 mẫu, tức là sẽ bị sai lệch theo cách tương tự (tốt nhất) như là một hoán vị?

Theo trực giác, có vẻ như có một loại thiết kế phân cấp kết hợp một thống kê nhị thức dựa trên tỷ lệ số không và, giả sử, một thống kê Wilcoxon được tính trên các giá trị khác không (hoặc, tốt hơn, các giá trị khác không được bổ sung với một phần của số không dựa trên một số trước). Âm thanh như một mạng Bayes ...

Hy vọng tôi không phải là người đầu tiên gặp vấn đề này, vì vậy sẽ rất biết ơn nếu bạn có thể chỉ cho tôi các kỹ thuật hiện có phù hợp ...

Cảm ơn nhiều!


Cập nhật. Cho đến nay, tôi đã tìm thấy bài viết này giải quyết một vấn đề tương tự như của tôi: maths.otago.ac.nz/home/doads/david_fletcher/ Lỗi
a11msp

Tôi đang tự hỏi liệu phép tính gần đúng cực kỳ đơn giản này có hợp lý hay không, với điều kiện các số 0 tạo thành đa số tuyệt đối: 1) tìm tỷ lệ các số không trong mỗi tập hợp con. 2) giả sử rằng trong tập hợp con có số 0 nhỏ nhất thì tất cả các số 0 đều đúng. 3) từ mỗi tập hợp con, loại bỏ tỷ lệ số không bằng tỷ lệ số không trong bộ dữ liệu "không giàu" nhất. 4) chạy các số liệu thống kê phi tham số tiêu chuẩn trên bộ dữ liệu được sửa đổi này.
a11msp

Các siêu liên kết đến bài báo trong bình luận đầu tiên của bạn dường như đã chết. Bạn có thể cung cấp một trích dẫn thay thế?
coip

1
Cảm ơn bạn đã chỉ ra điều này: doi.org/10.1007/s10651-005-6817-1
a11msp

Câu trả lời:


9

@msp, tôi nghĩ rằng bạn đang xem một mô hình hai giai đoạn trong tệp đính kèm đó (tôi không có thời gian để đọc nó), nhưng dữ liệu liên tục bị thổi phồng là loại tôi làm việc rất nhiều. Để phù hợp với một mô hình tham số cho dữ liệu này (để cho phép kiểm tra giả thuyết), bạn có thể điều chỉnh hai giai đoạn nhưng sau đó bạn có hai mô hình (Y là mục tiêu và X là hiệp phương sai): P (Y = 0 | X) và P (Y | X; Y> 0). Bạn phải sử dụng mô phỏng để "mang" những thứ này lại với nhau. Cuốn sách Gelmans (và gói arm in R) cho thấy quá trình này cho mô hình chính xác này (sử dụng hồi quy logistic và hồi quy tuyến tính thông thường với một liên kết nhật ký).

Tùy chọn khác mà tôi đã thấy và thích hơn là phù hợp với hồi quy gamma bằng 0, giống như trên (nhưng gamma là lỗi thay vì guassian) và bạn có thể mang chúng lại với nhau để kiểm tra giả thuyết trên P (Y | X) . Tôi không biết làm thế nào để làm điều này trong R, nhưng bạn có thể trong SAS NLMIXED. Xem bài này , nó hoạt động tốt.


@B_Miner, cảm ơn rất nhiều vì câu trả lời của bạn, xin lỗi vì không có đủ đánh giá để bình chọn cho bạn ... Tôi sẽ xem xét các liên kết! Điều lo lắng duy nhất của tôi về các mô hình có điều kiện là chúng quy định rằng các số 0 không thể thuộc về thành phần thứ hai (liên tục), phải không? Có phải thiết lập của tôi không cảm thấy giống như một mô hình hỗn hợp? Bạn nghĩ sao?
a11msp

Bây giờ tôi đã sao chép cách tiếp cận hai giai đoạn được đề xuất trong cuốn sách Gelman. Nếu subset_factor (với 25 cấp độ) đóng vai trò là nhãn tập hợp con, bước đầu tiên là fit1 = glm (answer ~ subset_factor, Family = binomial); và bước thứ hai là fit2 = lm (hồi đáp ~ subset_factor, subset = reply> 0). Sau đó tôi có thể chạy mô phỏng khi chúng mô tả để có được sự phân phối các giá trị phản hồi được trang bị cho từng cấp độ yếu tố. Tuy nhiên, tôi vẫn không chắc chắn làm thế nào để dịch cái này sang thứ tôi cần, đó là (a) xác suất các hệ số không bằng 0 và (b) ý nghĩa của sự khác biệt giữa các hệ số ở các mức yếu tố khác nhau.
a11msp

Cách tiếp cận hai giai đoạn (phương pháp Gelman của hai mô hình riêng biệt) giả định hai quần thể, những người ở mức 0 và những người ở trên.
B_Miner

... vậy có nên nói một cách đơn giản rằng nếu tác động của một số yếu tố là đáng kể (và khác biệt đáng kể so với một số yếu tố khác) trong một trong hai mô hình trong phương pháp của Gelman thì nó có ý nghĩa tổng thể không?
a11msp

1
Có, cách tiếp cận hai giai đoạn (phương pháp Gelman của hai mô hình riêng biệt) giả định hai quần thể, những con số 0 và những con số 0. Về các thử nghiệm giả thuyết, bạn có thể đóng khung chúng theo các giá trị dự đoán cho các mức đầu vào khác nhau và xây dựng theo kinh nghiệm khoảng tin cậy liên quan đến mô phỏng cho từng? Đối với các kiểm tra giả thuyết cho hệ số! = 0, bạn cần kiểm tra riêng biệt cho cả hai mô hình.
B_Miner

2

Một cách tiếp cận tương tự với giấy Fletcher được sử dụng trong thử nghiệm tiếp thị, trong đó chúng ta có thể tùy ý phân tách các tác động của các can thiệp (như quảng cáo) thành (a) thay đổi số lượng mua thương hiệu (tức là tỷ lệ số không) và (b) a thay đổi tần suất mua ban nhạc (doanh số bán hàng xảy ra ở tất cả). Đây là một cách tiếp cận vững chắc và có ý nghĩa về mặt khái niệm trong bối cảnh tiếp thị và trong bối cảnh sinh thái mà Fletcher thảo luận. Trên thực tế, điều này có thể được mở rộng đến (c) thay đổi kích thước của mỗi lần mua.


Cảm ơn! Tôi đang tự hỏi nếu bạn biết về một triển khai r hiện tại của điều này?
a11msp

1

Bạn có thể xử lý số lượng không chính xác của số không xác định, nhưng bị ràng buộc giữa 0 và số không được quan sát. Điều này chắc chắn có thể được xử lý bằng cách sử dụng công thức Bayes của mô hình. Có lẽ một phương pháp nhiều mức độ cũng có thể được điều chỉnh để thay đổi một cách thích hợp các trọng số (trong khoảng từ 0 đến 1) của các quan sát bằng 0

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.