Thời gian dành cho một hoạt động như một biến độc lập


14

Tôi muốn bao gồm thời gian dành cho việc làm gì đó (ví dụ như tuần cho con bú) như một biến độc lập trong mô hình tuyến tính. Tuy nhiên, một số quan sát không tham gia vào hành vi nào cả. Mã hóa chúng thành 0 không thực sự đúng, bởi vì 0 khác biệt về chất với bất kỳ giá trị nào> 0 (tức là phụ nữ không cho con bú có thể rất khác với phụ nữ làm, ngay cả những người không làm điều đó rất lâu). Điều tốt nhất tôi có thể đưa ra là một tập hợp các hình nộm phân loại thời gian sử dụng, nhưng đây là một sự lãng phí thông tin quý giá. Một cái gì đó giống như Poisson bằng không cũng có vẻ giống như một khả năng, nhưng tôi không thể tìm ra chính xác nó sẽ trông như thế nào trong bối cảnh này. Có ai có bất cứ đề nghị?

Câu trả lời:


16

Để mở rộng một chút về câu trả lời của @ ken-butler. Bằng cách thêm cả biến liên tục (giờ) và biến chỉ báo cho một giá trị đặc biệt (giờ = 0 hoặc không cho con bú), bạn nghĩ rằng có một hiệu ứng tuyến tính cho giá trị "không đặc biệt" và một bước nhảy rời rạc trong kết quả dự đoán ở giá trị đặc biệt. Nó giúp (ít nhất là cho tôi) nhìn vào biểu đồ. Trong ví dụ dưới đây, chúng tôi mô hình tiền lương hàng giờ như một chức năng của giờ mỗi tuần mà người trả lời (tất cả phụ nữ) làm việc và chúng tôi nghĩ rằng có một cái gì đó đặc biệt về "tiêu chuẩn" 40 giờ mỗi tuần:

nhập mô tả hình ảnh ở đây

Mã tạo ra biểu đồ này (trong Stata) có thể được tìm thấy ở đây: http://www.stata.com/stirthist/archive/2013-03/msg00088.html

Vì vậy, trong trường hợp này, chúng tôi đã gán cho biến liên tục một giá trị 40 mặc dù chúng tôi muốn nó được xử lý khác với các giá trị khác. Tương tự như vậy, bạn sẽ cho tuần của bạn cho con bú giá trị 0 mặc dù bạn nghĩ rằng nó khác biệt về chất với các giá trị khác. Tôi giải thích bình luận của bạn dưới đây mà bạn nghĩ rằng đây là một vấn đề. Đây không phải là trường hợp và bạn không cần thêm một thuật ngữ tương tác. Trên thực tế, thuật ngữ tương tác đó sẽ bị loại bỏ do sự cộng tác hoàn hảo nếu bạn đã thử. Đây không phải là một giới hạn, nó chỉ cho bạn biết rằng các điều khoản tương tác không thêm bất kỳ thông tin mới nào.

Nói phương trình hồi quy của bạn trông như thế này:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Trong đó là số tuần cho con bú (bao gồm giá trị 0 cho những người không cho con bú) và n o n _ b r e a s t f e e d i n g là một biến chỉ số là 1 khi ai đó không cho con bú và 0 khác.weeks_breastfeedingnon_breastfeeding

Hãy xem xét những gì xảy ra khi ai đó đang cho con bú. Phương trình hồi quy đơn giản hóa thành:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Vì vậy, chỉ là một hiệu ứng tuyến tính của số tuần cho con bú cho những người làm con bú.β1

Hãy xem xét những gì đang xảy ra khi ai đó không cho con bú:

y^=β10+β21+=β2+

Vì vậy, cho bạn hiệu quả của việc không cho con bú và số tuần cho con bú giảm từ phương trình.β2

Bạn có thể thấy rằng không có cách nào để thêm một thuật ngữ tương tác, vì thuật ngữ tương tác đó đã có (ngầm) trong đó.

Tuy nhiên, có một điều kỳ lạ về , vì nó đo lường hiệu quả của việc cho con bú bằng cách so sánh kết quả mong đợi của những người không cho con bú với những người cho con bú nhưng chỉ làm như vậy trong 0 tuần ... giống như kiểu "cách, nhưng tính hữu dụng thực tế không phải là rõ ràng. Có thể có ý nghĩa hơn khi so sánh "những người không cho con bú" với những phụ nữ đang cho con bú 12 tuần (khoảng 3 tháng). Trong trường hợp đó, bạn chỉ cần cung cấp cho "người không cho con bú" giá trị 12 cho w e e k s _ b r e a s t f e e d i n gβ2weeks_breastfeeding. Vì vậy, giá trị bạn gán cho cho "những người không cho con bú" không ảnh hưởng đến hệ số hồi quy β 2 theo nghĩa là nó xác định với ai là "không -bTHERfeeders "được so sánh. Thay vì một vấn đề, đây thực sự là một cái gì đó có thể khá hữu ích.weeks_breastfeedingβ2


1
Tôi đánh giá cao câu trả lời (và những người khác), nhưng tôi đang gặp khó khăn khi chấp nhận nó. Nếu tôi bao gồm 1: 0 và biến thời gian liên tục, tôi vẫn phải gán cho những người không cho con bú một giá trị theo thời gian (nếu không họ sẽ bỏ qua một biến số bị thiếu). Ngay cả điều kiện trên biến 1: 0, tôi cũng không thấy việc bao gồm những người không cho con bú như thời gian = 0 không ảnh hưởng đến hệ số hồi quy. Có lẽ cũng thêm thuật ngữ tương tác sản phẩm giữa hai người sẽ có ý nghĩa hơn?
DL Dahly

@DLDahly Tôi đã chỉnh sửa câu trả lời của mình để đối phó với những nghi ngờ này
Maarten Buis

Ok, điều đó rất hữu ích. Hãy để tôi hỏi thêm một lần theo dõi nhanh nữa ... nếu tôi hiểu bạn một cách chính xác, thì giá trị ước tính cho B1 sẽ giống nhau bất kể giá trị thời gian nào tôi đưa ra cho B2 = 1 người. Có đúng không?
DL Dahly

1
Phản ứng rất tốt đẹp Maarten. Dưới đây là một câu hỏi / câu trả lời tương tự trên trang web cho thấy một tình huống tương tự trong đó bao gồm một biến độc lập chỉ liên quan đến một nhóm con cụ thể .
Andy W

1
@ GavinM.Jones Tôi chưa bao giờ nghĩ đến việc cần phải đặt tên cho nó hoặc trích dẫn điều này: nó chỉ là một ứng dụng đơn giản của các biến liên tục và chỉ báo. Do đó, tôi không có một tài liệu tham khảo tốt cho bạn. Điều gần gũi nhất mà tôi có thể nhanh chóng khai thác là Treiman, DJ (2009): Phân tích dữ liệu định lượng. Làm nghiên cứu xã hội để kiểm tra ý tưởng. San Francisco: Jossey-Bass. , chương 7 đã thảo luận một cái gì đó tương tự. Mô hình chứa một hằng số.
Maarten Buis

6

Một cái gì đó đơn giản: biểu thị biến của bạn bằng chỉ báo 1/0 cho bất kỳ / không và giá trị thực. Đặt cả hai vào hồi quy.


4

Nếu bạn đặt chỉ báo nhị phân cho bất kỳ thời gian nào (= 1) so với không sử dụng thời gian (= 0) và sau đó có lượng thời gian là biến liên tục, hiệu ứng khác nhau của "0" lần sẽ là " nhặt lên "bởi chỉ số 0-1


2

Bạn có thể sử dụng các mô hình hiệu ứng hỗn hợp với một nhóm dựa trên 0 thời gian so với thời gian khác không và giữ biến độc lập của bạn


Bạn có thể vui lòng mở rộng về điều này một chút? Cảm ơn nhiều.
DL Dahly

một mô hình hiệu ứng hỗn hợp giả định rằng có một yếu tố phân chia dữ liệu thành các nhóm (không đồng nhất) khác nhau, trong mỗi yếu tố chúng ta có thể có mối quan hệ khác nhau giữa các biến giải thích và biến phụ thuộc (về mặt nếu chặn hoặc chặn và độ dốc / hệ số). vi.wikipedia.org/wiki/Mixed_model
rezakhorshidi

Vì vậy, sử dụng các cá nhân, lồng trong tình trạng cho con bú, và sau đó một độ dốc ngẫu nhiên trong tuần - cho con bú? Tôi có thể làm điều này như một SEM đủ dễ dàng và kiểm tra các ràng buộc nhất định. Cảm ơn +1
DL Dahly

1

Nếu bạn đang sử dụng Rừng ngẫu nhiên hoặc Mạng thần kinh, đặt số này là 0 là được, bởi vì họ sẽ có thể nhận ra rằng 0 khác biệt rõ rệt với các giá trị khác (nếu thực tế nó khác). Một cách khác là thêm một biến phân loại có / không ngoài biến thời gian.

Nhưng tất cả, trong trường hợp cụ thể này, tôi không thấy vấn đề thực sự - 0,1 tuần cho con bú gần bằng 0 và hiệu quả sẽ rất giống nhau, vì vậy có vẻ như một biến số liên tục đối với tôi với 0 không nổi bật như một điều gì đó khác biệt


3
+1 cho đoạn đầu tiên nhưng đối phó với dữ liệu khoa học xã hội hoặc y tế, ảnh hưởng của 0 so với 0,1 tuần của một cái gì đó không phải là mối lo chính. Vấn đề là phụ nữ không cố gắng hoặc báo cáo cho con bú hoàn toàn có thể khác biệt về mặt hệ thống ở nhiều khía cạnh khác (vấn đề sức khỏe, thu nhập, hoàn cảnh gia đình, khả năng nghỉ việc, tiếp cận các dịch vụ y tế, nơi họ có được thông tin về nuôi dạy con cái, v.v.) Thực sự không có lý do gì để tin rằng những người phụ nữ này rất giống với những bà mẹ cố gắng cho con bú và nhanh chóng dừng lại.
Gala

1
Từ quan điểm thống kê, sẽ tốt hơn nếu đưa các biến khác này vào mô hình của bạn một cách rõ ràng nhưng sẽ hợp lý hơn khi cho rằng không có gì đặc biệt xảy ra ở 0, tôi nghĩ vậy.
Gala

0

Mô hình Tobit là những gì bạn muốn, tôi nghĩ.


5
Tobits được sử dụng khi kết quả được kiểm duyệt trên hoặc dưới một số ngưỡng. Ví dụ: chúng tôi không quan sát bất kỳ mức lương nào dưới mức lương tối thiểu hoặc thu nhập trên một số giá trị được mã hóa hàng đầu. Ứng dụng này là cho một biến độc lập.
Dimitriy V. Masterov
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.