Kiểm tra xem 2 bộ dữ liệu phân tán theo cấp số nhân có khác nhau không


8

Tôi có 2 bộ dữ liệu phân tán theo cấp số nhân và tôi muốn chắc chắn rằng chúng đến từ các bản phân phối khác nhau. Thật không may, một lỗi cần thiết trong việc phát hiện dữ liệu buộc tôi phải loại bỏ tất cả dữ liệu dưới một ngưỡng nhất định. Trong mỗi bộ tôi có khoảng 3000 điểm dữ liệu và việc vẽ dữ liệu khiến tôi nghĩ rằng giá trị lambda là khác nhau. Lắp cũng mang lại giá trị khác nhau cho lambda.

Làm thế nào tôi có thể chắc chắn rằng cả hai bộ dữ liệu có nguồn gốc từ một phân phối khác nhau?

Dưới đây là một biểu đồ về cách các bộ trông như thế nào (Lưu ý rằng tất cả các giá trị trong vòng đời = 3 giây phải được loại bỏ):

CẬP NHẬT: Các phân phối trên trong cả hai trường hợp được chuẩn hóa trên N chỉ để so sánh chúng tốt hơn trong biểu đồ vì tổng số điểm dữ liệu N là khác nhau.

CẬP NHẬT2: Sau khi cắt ngắn, tôi có khoảng 150 giá trị trọn đời cho tập dữ liệu màu đỏ và 350 cho tập dữ liệu màu xanh. Hóa ra 3000 đã được phóng đại (tôi xin lỗi).

CẬP NHẬT3: Cảm ơn bạn đã mang theo tôi. Đây là dữ liệu thô:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

Cho đến nay tôi đã trang bị một hàm số mũ cho cả hai tập dữ liệu và so sánh các sườn. Vì bất kỳ sự chuẩn hóa nào cũng không nên thay đổi độ dốc của dữ liệu, các độ dốc khác nhau sẽ ngụ ý các phân phối hàm mũ cơ bản khác nhau (Kinh nghiệm của tôi với phân tích thống kê là rất hạn chế).

Các giá trị dưới ngưỡng bị loại bỏ vì phép đo phát hiện nhiều sự kiện quá thường xuyên trong chế độ đó.

CẬP NHẬT4: Tôi chỉ nhận ra rằng vấn đề của tôi phức tạp hơn nhiều so với tôi nghĩ. Tôi thực sự đã bị kiểm duyệt (tôi không biết bắt đầu một số sự kiện) và phải kiểm duyệt (không biết kết thúc một số sự kiện) VÀ tôi phải loại bỏ tất cả thời gian sống dưới 3 giây (cắt ngắn). Có cách nào để kết hợp tất cả những điều đó vào một phân tích không? Cho đến nay tôi đã tìm thấy một số trợ giúp về cách làm việc với dữ liệu bị kiểm duyệt (phân tích sinh tồn) nhưng tôi nên làm gì với việc cắt bớt?


Vì cốt truyện dường như cho thấy mật độ, chúng được ước tính như thế nào?
Yves

Những âm thanh như dữ liệu bị kiểm duyệt. Bạn mất thông tin và có khả năng sai lệch kết quả bằng cách loại bỏ những người dưới ngưỡng. Thay vào đó, bạn cần báo cáo ngưỡng đó là gì (3 giây, tôi thấy) cung cấp số lượng giá trị bị loại bỏ trong mỗi nhóm. Bạn cũng nên giải thích bất kỳ dữ liệu định lượng nào được hiển thị dưới ngưỡng (chẳng hạn như điểm màu nâu ở dưới cùng bên trái). Dán nhãn trục dọc là "mật độ" là bí ẩn: chắc chắn dữ liệu ban đầu của bạn chỉ là thời gian sống và âm mưu này mang lại số lượng trong các lớp học hẹp?
whuber

Nếu bạn muốn so sánh hai phân phối có điều kiện (trên ngưỡng), bạn có thể sử dụng một chiếc F-test cho các so sánh của các phương tiện như mô tả của @Glen_b trong stats.stackexchange.com/a/76695/10479
Yves

Vui lòng: xóa chuẩn hóa để chúng tôi có thể xem dữ liệu thực tế (chuẩn hóa sẽ phá hủy thông tin cần thiết) và cho chúng tôi biết có bao nhiêu giá trị bạn thường vứt đi trong dữ liệu.
whuber

Tôi đã thêm dữ liệu thô vào câu hỏi. Trong tập dữ liệu đầu tiên tôi phải loại bỏ 50% trong lần thứ hai khoảng 30%.
MaxJ

Câu trả lời:


5

Tuổi thọ phân bố theo cấp số nhân là một trường hợp đặc biệt đơn giản để phân tích sinh tồn . Phân tích chúng thường là ví dụ đầu tiên có tác dụng giúp sinh viên bắt đầu trước khi chuyển sang các tình huống phức tạp hơn. Ngoài ra, phân tích sinh tồn tự nhiên phù hợp với dữ liệu bị kiểm duyệt. Tóm lại, tôi khuyên bạn nên sử dụng phân tích sinh tồn với chỉ số nhóm cho hai bản phân phối làm hiệu quả điều trị. Bạn có thể sử dụng mô hình tham số (ví dụ: mô hình Weibull, vì hàm mũ là trường hợp đặc biệt của Weibull ) hoặc bạn có thể sử dụng các phương pháp không tham số, như kiểm tra thứ hạng nhật ký , nếu bạn thích.


Điều này cũng áp dụng cho dữ liệu cắt ngắn? Tôi nghĩ vấn đề của tôi hơi khác so với kiểm duyệt hay?
MaxJ

@ user3683367, cắt ngắn khác với kiểm duyệt. Chúng sẽ kiểm tra sự khác biệt trong các bản phân phối trên giới hạn phát hiện.
gung - Phục hồi Monica

Tôi đã thoát khỏi việc cắt ngắn (thiết lập exp mới) và chỉ sử dụng dữ liệu bị kiểm duyệt trái và phải trong hộp công cụ thống kê MATLABS. Tôi đã sử dụng chức năng Weibull với dữ liệu bị kiểm duyệt trái và phải. Các phương tiện được trang bị là khác nhau và giới hạn lỗi của chúng không trùng nhau. Làm thế nào tôi có thể tính toán một xác suất mà các bản phân phối của tôi thực sự giống nhau?
MaxJ

10

2

H0:λ1=λ2λiλ

Vì bạn có cỡ mẫu lớn, để kiểm tra điều này, chúng tôi có thể kháng cáo định lý giới hạn trung tâm cho chúng tôi biết những điều sau:

X1,X2,...XnE[Xi]=μ and Var[Xi]=σ2<nn(X¯μ)N(0,σ2)

Nói cách khác, mẫu của bạn có nghĩa là cho mỗi trong hai nhóm được phân phối bình thường. Vì bạn không biết giá trị thực của , nên bạn có thể thực hiện kiểm tra t để tìm sự khác biệt của phương tiện.σ2


1
Bởi vì phân phối theo cấp số nhân rất sai lệch, cần có một phân tích nhỏ để biện minh cho việc áp dụng CLT. Nếu thực sự những dữ liệu này không được kiểm duyệt, thì hóa ra sẽ là quá đủ để làm cho xấp xỉ bình thường trở thành tốt. (Chứng minh: cgf của giá trị trung bình của iid lũy thừa là , ngụ ý độ lệch là , nhỏ với ) Nhưng đây có thể là một lỗi nghiêm trọng nếu một tỷ lệ đáng kể của một trong hai tập dữ liệu đã bị loại bỏ. n ψ ( t ) = t 2 / ( 2 n ) + i t 3 / ( 3 n 2 ) + O ( t 4 ) 2 n=3000nψ(t)=t2/(2n)+it3/(3n2)+O(t4) n=30002nn=3000
whuber

Tôi đã chỉnh sửa câu hỏi của tôi. Tôi thực sự có thể áp dụng CLT cho dữ liệu bị kiểm duyệt trái với N = 100-300 không?
MaxJ

Sửa lỗi cho tôi nếu tôi sai, nhưng tôi tin rằng quan điểm của Whuber là nếu phân phối theo cấp số nhân bị cắt bớt thì đó không còn là phân phối theo cấp số nhân thuần túy. Một mấu chốt của lập luận của tôi là giá trị trung bình của phân bố mũ sẽ xác định duy nhất nó. Nếu phân phối rút gọn mới này không còn được xác định duy nhất bởi ý nghĩa của nó thì đối số của tôi có thể thất bại. Cho dù dữ liệu có bị cắt ngắn hay không, bạn vẫn có thể thực hiện một sự khác biệt về phương tiện kiểm tra t. Nếu phương tiện khác nhau thì phân phối cũng khác.
TrynnaDoStat

Nếu quan điểm của Whuber là CLT không áp dụng thì tôi sẽ không đồng ý với anh ta. Cho dù dữ liệu của bạn đến từ phân phối hàm mũ thuần túy hay bị cắt cụt, bạn vẫn có mẫu iid từ cùng một phân phối với một số trung bình và một số phương sai hữu hạn . σ 2μσ2
TrynnaDoStat

2
Quan điểm của tôi không phải là CLT không thể áp dụng được: đó là để áp dụng nó, bạn phải kiểm tra xem phép tính gần đúng tiệm cận là tốt. CLT hoàn toàn không nói về việc phân phối giá trị trung bình của bất kỳ số lượng hữu hạn nào của các biến iid, hữu hạn-phương sai. Và xin đừng nhầm lẫn giữa việc cắt xén với kiểm duyệt: vấn đề được tạo ra bởi kiểm duyệt là một số dữ liệu không phải là số chẵn (chúng là các khoảng) - vì vậy một điều kiện CLT không thể (trực tiếp) áp dụng trong tình huống đó.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.