Phân tích dữ liệu được cung cấp dưới dạng khoảng thay vì điểm


7

Tôi có một bộ dữ liệu không được cung cấp là x=x1,,xn, nhưng là cặp xinterval=(x1(start),x1(end)),,(xn(start),xn(end)).Đối với mỗi cặp (x ^ {(bắt đầu)} _ i, x ^ {(kết thúc)} _ i), x_i(xi(start),xi(end)), thực sự nằm trong khoảng (x ^ {(bắt đầu)} _ i, x ^ {(kết thúc)} _ i), nhưng không biết ở đâu.xi(xi(start),xi(end)),

Trong ngữ cảnh, điều này có nghĩa là chúng ta có các khoảng thời gian trong đó chúng ta biết một sự kiện xi xảy ra, cho chúng ta biết rằng nó đã xảy ra sau xi(start), nhưng trước xTôi(end) .

Mục tiêu của phân tích là mô hình hóa dữ liệu này hoặc theo một cách nào đó gần đúng phân phối. Ban đầu, tôi sẽ bắt đầu với việc cố gắng sử dụng thông tin có trong các khoảng thời gian để phù hợp với phân phối bình thường cho phân phối các sự kiện không quan sát được x .

Tôi đang rất khó khăn trong việc tìm kiếm bất kỳ thông tin nào về loại vấn đề này. Đây có phải là một lĩnh vực nghiên cứu đã biết, phân tích khoảng thời gian thống kê?


1
Nó giống như kiểm duyệt hai mặt trong phân tích sinh tồn. Nhưng nó không phải là một thời gian kiểm duyệt và bạn có một vài khoảng thời gian chỉ có một quan sát cho mỗi khoảng. Nếu tôi đặt phân phối cho x không xác định trong mỗi khoảng thời gian tôi sẽ sử dụng phân phối thống nhất vì tôi nghĩ bạn không có lý do gì để ưu tiên bất kỳ điểm cụ thể nào trong các khoảng thời gian hơn các khoảng khác.
Michael R. Chernick

2
Có một thẻ trên trang web này để kiểm duyệt giữa chừng, có lẽ một số câu trả lời có thể giúp bạn?
mdewey

1
Có thể hình dung rằng làm thế nào các khoảng được tạo ra có thể là thông tin. Như vậy, tôi sẽ miễn cưỡng áp dụng một số kỹ thuật "kiểm duyệt giữa chừng" cho việc phân tích các dữ liệu này cho đến khi tôi hiểu rõ hơn về những khoảng thời gian này thực sự đại diện cho điều gì. Bạn có thể giải thích về điều đó? Ví dụ, nhiều phép đo cắt ngắn kỹ thuật số với công suất gần nhất là 10, trong đó tất cả các khoảng có chiều rộng chung với các điểm cuối được xác định trước. Trong các trường hợp khác, độ rộng khoảng có thể thay đổi theo phép đo do các thuộc tính của chính phép đo.
whuber

Câu trả lời:


10

Các dữ liệu được kiểm duyệt , đặc biệt là khoảng thời gian kiểm duyệt . Kiểm duyệt, đặc biệt là kiểm duyệt phải (bắt đầu nhưng không kết thúc), là một đặc điểm chung của dữ liệu theo thời gian và xử lý theo phân tích sinh tồn (Y học) hoặc phân tích độ tin cậy (Kỹ thuật).

Đối với mô hình hóa tham số của dữ liệu đó, cái nhìn sâu sắc chính là sự đóng góp cho khả năng chung từ dữ liệu không bị kiểm duyệt có dạng trong khi những người từ dữ liệu bị kiểm duyệt có dạng trong đó là mật độ & hàm phân phối. Theo giả định của kiểm duyệt độc lập mà bạn không nên nhảy vào đây, đây là phần duy nhất có khả năng cần thiết để suy luận vì thời gian kiểm duyệt không có thêm thông tin nào về các tham số. Nếu một phân phối bình thường có vẻ phù hợp bắt đầu với một biểu đồ đường viền về khả năng chống lại các tham số trung bình & phương sai, thì hãy cải thiện các ước tính khả năng tối đa ban đầu bằng số.

f(xTôi)
F(xTôi(end))-F(xTôi(Stmộtrt)),
f()F()

Cảm ơn rất nhiều vì sự kết nối với thuật ngữ kiểm duyệt và kiểm duyệt giữa chừng. Sự đóng góp khả năng là một sự khác biệt giữa hai CDF thực sự là linh cảm của tôi, nhưng thật tuyệt khi thấy nó có ý nghĩa. Cảm ơn một lần nữa!
Kees Mulder

5

Một khởi đầu tốt để kiểm tra phân phối đơn biến sẽ là xem xét Công cụ ước tính khả năng tối đa không tham số (NPMLE). Đây là một khái quát của các đường cong Kaplan-Meier (bản thân nó là một khái quát của Hàm phân phối theo kinh nghiệm), sẽ cung cấp cho bạn một ước tính không tham số của hàm phân phối tích lũy. Thật thú vị, ước tính này không phải là duy nhất (không giống như các đường cong EDF hoặc Kaplan Meier), nhưng được biết đến đến một khoảng. Vì vậy, bạn sẽ nhận được một cặp hàm bước ràng buộc NPMLE, thay vì một hàm bước đơn.

Mặc dù công cụ ước tính này là tốt để kiểm tra hình dạng của phân phối, nó có thể hơi không ổn định, tức là phương sai cao trong các ước tính. Người ta có thể phù hợp với các mô hình tham số tiêu chuẩn, nhưng vẫn nên sử dụng NPMLE ít nhất để kiểm tra mô hình.

Nhiều mô hình hồi quy sống sót tiêu chuẩn có sẵn (ví dụ như các mối nguy theo tỷ lệ, thời gian thất bại tăng tốc và tỷ lệ cược tỷ lệ). Điều thú vị là, mặc dù NPMLE có phương sai cao cho các ước tính của đường cong sống sót, các tham số hồi quy trong mô hình bán tham số sử dụng NPMLE cho phân phối đường cơ sở không bị mất ổn định. Vì vậy, phương pháp hồi quy bán tham số khá phổ biến để suy luận.

@Scortchi và @whuber đưa ra những điểm quan trọng về việc tạo ra điểm bắt đầu và kết thúc của khoảng thời gian quan sát (xTôiStmộtrt,xTôiendtheo định nghĩa của OP). Một giả định đơn giản hóa tiêu chuẩn (mà cần được xem xét một cách cẩn thận) là có một tập hợp các lần kiểm tra được tạo ra một cách độc lập của thực tế thời gian sự kiện / kết quả quan tâm (bình đẳng xảy ra khi chúng ta quan sát chính xác thời gian sự kiện). Sau đó, tất cả những gì chúng ta quan sát là khoảng sao choC0C1,...,CktCj,Cj+1tCj,Cj+1. Nhưng nếu có vẻ hợp lý rằng thời gian sự kiện có thể ảnh hưởng mạnh đến thời gian kiểm tra, thì phải cẩn thận trong phân tích. Ví dụ, giả sử sự kiện quan tâm của chúng tôi là khởi phát sâu răng và kiểm tra của chúng tôi là thăm khám nha sĩ. Nếu chúng ta đến nha sĩ khá thường xuyên, thì giả định độc lập có vẻ hợp lý. Nhưng nếu chúng ta rất hiếm khi đến nha sĩ trừ khi răng chúng ta đau rất nhiều, thìtchắc chắn có ảnh hưởng đến !Cj

Một hướng dẫn ngắn gọn để sử dụng các mô hình này trong gói R của tôi icenRegcó thể được tìm thấy ở đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.