Tại sao các nhà nghiên cứu trong kinh tế học sử dụng hồi quy tuyến tính cho các biến phản ứng nhị phân?


13

Gần đây, tôi đã phải đọc một số bài báo về kinh tế (một lĩnh vực mà tôi không quá quen thuộc). Một điều mà tôi nhận thấy là ngay cả khi biến trả lời là nhị phân, các mô hình hồi quy tuyến tính được trang bị bằng OLS vẫn có mặt ở khắp mọi nơi. Câu hỏi của tôi là do:

Tại sao hồi quy tuyến tính được ưa chuộng hơn ví dụ hồi quy logistic trong lĩnh vực kinh tế? Đây chỉ đơn giản là thực tế phổ biến hay nó là một thủ tục được tích cực ủng hộ (trong các bài báo, bởi các giáo viên, vv)?

Xin lưu ý rằng tôi không hỏi tại sao sử dụng hồi quy tuyến tính với phản hồi nhị phân có thể là một ý tưởng tồi, hoặc phương pháp thay thế là gì. Ngược lại, tôi hỏi tại sao mọi người sử dụng hồi quy tuyến tính trong cài đặt này bởi vì tôi biết câu trả lời cho hai câu hỏi này.


5
Bạn có thể cho bất kỳ ví dụ?
Stephan Kolassa

7
Điều này không đúng. Kinh tế và kinh tế lượng cũng có một tài liệu rộng lớn về logit và probit và các mô hình liên quan. Tôi cũng là người ngoài cuộc và tôi không thể dễ dàng định lượng được việc sử dụng tương đối, nhưng tài liệu đủ lớn để bác bỏ "có mặt khắp nơi" (nghĩa là ở mọi nơi!). Có một câu hỏi ở đây về lý do tại sao cái gọi là mô hình xác suất tuyến tính được sử dụng và tôi không nghĩ rằng lời giải thích cần sâu hoặc khó tìm: thật đơn giản để hiểu và đôi khi nó hoạt động đầy đủ.
Nick Cox

3
Kinh tế chỉ có một mối quan hệ rất bình thường với toán học. Tôi sẽ không lo lắng quá nhiều về nó.
Sycorax nói phục hồi Monica

1
@Sycorax Tôi có cảm giác tương tự. Và nếu một người cẩu thả với toán học, anh ấy / cô ấy vẫn có thể xây dựng một cái gì đó "hoạt động".
Haitao Du

1
@Sycorax Điều đó không đúng cũng không công bằng. Chắc chắn, nói rằng "Bạn sẽ không lo lắng quá nhiều về nó" là vô trách nhiệm đối với câu hỏi. Tùy thuộc vào lĩnh vực phụ, Kinh tế có thể có mối quan hệ rất mạnh mẽ với toán học và thống kê. Chỉ là các nhà kinh tế thường quan tâm đến suy luận nguyên nhân trong khi tình cờ cũng phải xử lý dữ liệu quan sát (giống như nhiều ngành khoa học xã hội đã làm). Điều này làm cho nó cực kỳ khó để thiết lập sự chặt chẽ toán học mạnh mẽ mà không mang lại một số trực giác kinh tế.
StAtS

Câu trả lời:


17

Bài đăng trên blog này trên blog kinh tế lượng của Dave Giles chủ yếu nêu ra những nhược điểm của Mô hình Xác suất Tuyến tính (LPM).

Tuy nhiên , anh ta bao gồm một danh sách ngắn các lý do tại sao các nhà nghiên cứu chọn sử dụng nó:

  • Nó đơn giản hơn về mặt tính toán.
  • Nó dễ dàng hơn để giải thích "hiệu ứng cận biên".
  • Nó tránh được nguy cơ sai đặc tả của "chức năng liên kết".
  • Có các biến chứng với Logit hoặc Probit nếu bạn có các hồi quy giả nội sinh.
  • Các hiệu ứng cận biên ước tính từ các mô hình LPM, Logit và Probit thường rất giống nhau, đặc biệt nếu bạn có cỡ mẫu lớn.

Tôi không biết rằng LPM là tất cả những gì thường được sử dụng so với logit hoặc probit nhưng một số lý do ở trên là hợp lý với tôi.


2
+1, cảm ơn vì thuật ngữ Mô hình xác suất tuyến tính, tôi không biết nó trước đây.
Haitao Du

1
Có một phần tuyệt vời về vấn đề này trong "Kinh tế lượng vô hại" của Angrist và Pischke, nếu bạn quan tâm nhiều hơn.
shf8888

2

Tôi đã có câu hỏi tương tự khi đọc các bài báo từ người khác nộp. Và đã hỏi rất nhiều câu hỏi liên quan đến vấn đề này, chẳng hạn như câu hỏi này trong cộng đồng Khai thác dữ liệu giáo dục: Tại sao sử dụng tổn thất bình phương cho xác suất thay vì mất logistic?

Ở đây tôi sẽ trình bày rất nhiều ý kiến ​​cá nhân.


Tôi cảm thấy chức năng mất không quá quan trọng trong nhiều trường hợp sử dụng thực tế. Một số nhà nghiên cứu có thể biết nhiều hơn về mất bình phương và xây dựng hệ thống của nó, nó hoạt động vẫn hoạt động và giải quyết các vấn đề trong thế giới thực. Các nhà nghiên cứu có thể không bao giờ biết mất logistic hoặc mất bản lề, và muốn thử nó. Hơn nữa, họ có thể không quan tâm để tìm ra mô hình toán học tối ưu, nhưng muốn giải quyết các vấn đề thực sự mà không ai cố gắng giải quyết trước đây.

Đây là một ví dụ khác: nếu bạn kiểm tra câu trả lời này cho câu hỏi của tôi, tất cả chúng đều giống nhau. Các tác động của việc chọn các hàm mất khác nhau trong phân loại để mất xấp xỉ 0-1


Thêm suy nghĩ: một nghiên cứu về máy học có thể dành nhiều thời gian cho việc chọn mô hình nào và cách tối ưu hóa mô hình. Điều này là do một nhà nghiên cứu máy học có thể không có khả năng thu thập thêm dữ liệu / nhận được nhiều biện pháp hơn. Và công việc của một nhà nghiên cứu máy học là làm toán tốt hơn, không giải quyết vấn đề thế giới thực cụ thể tốt hơn.

Mặt khác, trong thế giới thực, nếu dữ liệu tốt hơn, nó sẽ đánh bại mọi thứ. Vì vậy, lựa chọn mạng lưới thần kinh hoặc rừng ngẫu nhiên có thể không quá quan trọng. Tất cả các mô hình này tương tự như một người muốn sử dụng máy học như một công cụ để giải quyết các vấn đề trong thế giới thực. Một người không quan tâm đến việc phát triển toán học hoặc công cụ có thể dành nhiều thời gian hơn cho việc sử dụng kiến ​​thức tên miền cụ thể để làm cho hệ thống tốt hơn.

Như tôi đã đề cập trong bình luận. Và nếu một người cẩu thả với toán học, anh ấy / cô ấy vẫn có thể xây dựng một cái gì đó hoạt động.


1
(+1) Đó là rất nhiều "trích dẫn" hxd, ý nghĩa của chúng để giao tiếp là gì? Liệu "hoạt động" có nghĩa là "họ nghĩ rằng nó hoạt động, nhưng nó không" hoặc nó có nghĩa là "công việc sắp xếp"?
Matthew Drury

@MatthewDrury cảm ơn vì nhận xét. Tôi nghĩ rằng tôi có rất nhiều cảm xúc cá nhân và không biết cách viết chúng ra. Tôi nghĩ rằng nhiều người trong số họ không chính thức hoặc quá chủ quan. đó là lý do tại sao tôi đã có rất nhiều trích dẫn
Haitao Du

Tôi nghĩ rõ ràng hơn khi chỉ gắn thẻ chúng là ý kiến ​​cá nhân. Đây là những gì tôi làm trong lớp với các sinh viên: "Điều này giáp với ý kiến ​​cá nhân nhưng, SVM hút" (không phải là một ví dụ thực tế, hoặc là ...)
Matthew Drury

@MatthewDrury cảm ơn vì đã tư vấn cho tôi viết, không có câu trích dẫn nào trong câu trả lời!
Haitao Du
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.