Mô hình hóa khi biến phụ thuộc có một đường cắt ra


12

Xin lỗi trước nếu bất kỳ thuật ngữ tôi sử dụng là không chính xác. Tôi hoan nghênh mọi sự điều chỉnh. Nếu những gì tôi mô tả là "cắt bỏ" có một tên khác, hãy cho tôi biết và tôi có thể cập nhật câu hỏi.

Tình huống tôi quan tâm là đây: bạn có các biến độc lập và một biến phụ thuộc duy nhất . Tôi sẽ để nó mơ hồ, nhưng giả sử rằng nó sẽ tương đối đơn giản để có được một mô hình hồi quy tốt cho các biến này. yxy

Tuy nhiên, mô hình mà bạn hướng tới là dành cho các biến độc lập và biến phụ thuộc , trong đó a là một giá trị cố định trong phạm vi của y . Tương tự, dữ liệu bạn có quyền truy cập không bao gồm y , chỉ w . w = min ( y , a ) a y y wxw=min(y,a)ayyw

Một ví dụ (hơi phi thực tế) về điều này sẽ là nếu bạn đang cố gắng mô hình hóa bao nhiêu năm mọi người sẽ thu tiền lương hưu của họ. Trong trường hợp này, x có thể là thông tin có liên quan như giới tính, cân nặng, số giờ tập thể dục mỗi tuần, v.v. Biến 'bên dưới' y sẽ có tuổi thọ. Tuy nhiên, biến bạn có quyền truy cập và đang cố gắng dự đoán trong mô hình của mình sẽ là w=min(0,yr) trong đó r là tuổi nghỉ hưu (giả sử đơn giản là nó đã được sửa).

Có một cách tiếp cận tốt để đối phó với điều này trong mô hình hồi quy?


1
Tôi không chắc chắn, nhưng điều này nghe có vẻ như có thể tiếp cận được thông qua một số biến thể của phân tích sinh tồn. 1) Nó liên quan đến kiểm duyệt 2) Ít nhất trong ví dụ của bạn, nó liên quan đến thời gian. Nhưng nó sẽ được kiểm duyệt trái chứ không phải kiểm duyệt phải (phổ biến hơn). Nếu bạn đồng ý với tôi, bạn có thể thêm thẻ sinh tồn và xem có ai nhảy vào nó không.
Peter Flom - Tái lập Monica

4
@Peter Nó chắc chắn có vẻ đúng kiểm duyệt đối với tôi. Việc kiểm duyệt xảy ra ở phía nào là ít nhập khẩu, bởi vì bằng cách phủ định biến phụ thuộc, người ta sẽ chuyển đổi giữa kiểm duyệt phải và trái.
whuber

@whuber Tôi nghĩ bạn nói đúng. Nhưng, như bạn nói, kiểm duyệt có thể chuyển đổi đủ dễ dàng.
Peter Flom - Tái lập Monica

Ví dụ về hưu dường như gọi một mô hình dữ liệu đếm (nếu bạn sẵn sàng làm tròn đến cả năm và miễn là mọi người đều chết khi bạn chạy phân tích). Cách tiếp cận biến tiềm ẩn có vẻ như kéo dài với điều này vì thời gian không thể âm.
Dimitriy V. Masterov

Câu trả lời:


14

Loại mô hình này đi theo một số tên, tùy thuộc vào ngành học và lĩnh vực chủ đề. Các tên phổ biến cho nó là biến phụ thuộc bị kiểm duyệt, biến phụ thuộc bị cắt, biến phụ thuộc có giới hạn, phân tích tồn tại, Tobit và hồi quy bị kiểm duyệt. Tôi có lẽ đang bỏ qua một vài cái tên khác.

Thiết lập mà bạn đề xuất trong đó được quan sát được gọi là "kiểm duyệt đúng", bởi vì các giá trị của quá xa về bên phải trên dòng thực được kiểm duyệt --- và thay vào đó chúng ta chỉ thấy điểm kiểm duyệt, .y i amin{yi,a}yia

Một cách để xử lý dữ liệu như thế này là thông qua việc sử dụng các biến tiềm ẩn (và về cơ bản đây là những gì bạn đề xuất). Đây là một cách để tiến hành:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Sau đó, bạn có thể phân tích điều này bằng khả năng tối đa. Các quan sát nơi kiểm duyệt xảy ra đóng góp cho chức năng khả năng và các quan sát trong đó kiểm duyệt không xảy ra đóng góp cho hàm khả năng. CDF của tiêu chuẩn thông thường là và mật độ của tiêu chuẩn thông thường là . Vì vậy, hàm khả năng trông giống như:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Bạn ước tính và bằng cách tối đa hóa điều này. Bạn nhận được các lỗi tiêu chuẩn như các lỗi tiêu chuẩn khả năng tối đa thông thường.βσ

Như bạn có thể tưởng tượng, đây chỉ là một cách tiếp cận giữa nhiều người.


1
+1 Một ví dụ hoạt động của giải pháp ML xuất hiện tại stats.stackexchange.com/questions/49443 .
whuber

@whuber Đó là một giải thích tốt đẹp.
Bill
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.