Tôi có 2 bộ dữ liệu phân tán theo cấp số nhân và tôi muốn chắc chắn rằng chúng đến từ các bản phân phối khác nhau. Thật không may, một lỗi cần thiết trong việc phát hiện dữ liệu buộc tôi phải loại bỏ tất cả dữ liệu dưới một ngưỡng nhất định. Trong mỗi bộ tôi có khoảng 3000 điểm dữ liệu và việc vẽ dữ liệu khiến tôi nghĩ rằng giá trị lambda là khác nhau. Lắp cũng mang lại giá trị khác nhau cho lambda.
Làm thế nào tôi có thể chắc chắn rằng cả hai bộ dữ liệu có nguồn gốc từ một phân phối khác nhau?
Dưới đây là một biểu đồ về cách các bộ trông như thế nào (Lưu ý rằng tất cả các giá trị trong vòng đời = 3 giây phải được loại bỏ):
CẬP NHẬT: Các phân phối trên trong cả hai trường hợp được chuẩn hóa trên N chỉ để so sánh chúng tốt hơn trong biểu đồ vì tổng số điểm dữ liệu N là khác nhau.
CẬP NHẬT2: Sau khi cắt ngắn, tôi có khoảng 150 giá trị trọn đời cho tập dữ liệu màu đỏ và 350 cho tập dữ liệu màu xanh. Hóa ra 3000 đã được phóng đại (tôi xin lỗi).
CẬP NHẬT3: Cảm ơn bạn đã mang theo tôi. Đây là dữ liệu thô:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Cho đến nay tôi đã trang bị một hàm số mũ cho cả hai tập dữ liệu và so sánh các sườn. Vì bất kỳ sự chuẩn hóa nào cũng không nên thay đổi độ dốc của dữ liệu, các độ dốc khác nhau sẽ ngụ ý các phân phối hàm mũ cơ bản khác nhau (Kinh nghiệm của tôi với phân tích thống kê là rất hạn chế).
Các giá trị dưới ngưỡng bị loại bỏ vì phép đo phát hiện nhiều sự kiện quá thường xuyên trong chế độ đó.
CẬP NHẬT4: Tôi chỉ nhận ra rằng vấn đề của tôi phức tạp hơn nhiều so với tôi nghĩ. Tôi thực sự đã bị kiểm duyệt (tôi không biết bắt đầu một số sự kiện) và phải kiểm duyệt (không biết kết thúc một số sự kiện) VÀ tôi phải loại bỏ tất cả thời gian sống dưới 3 giây (cắt ngắn). Có cách nào để kết hợp tất cả những điều đó vào một phân tích không? Cho đến nay tôi đã tìm thấy một số trợ giúp về cách làm việc với dữ liệu bị kiểm duyệt (phân tích sinh tồn) nhưng tôi nên làm gì với việc cắt bớt?