Làm cách nào để đưa và vào hồi quy và liệu có nên tập trung chúng không?


9

Tôi muốn đưa thuật ngữ và bình phương (biến dự báo) vào hồi quy vì tôi giả sử rằng giá trị thấp của có tác động tích cực đến biến phụ thuộc và giá trị cao có tác động tiêu cực. Các nên nắm bắt được ảnh hưởng của các giá trị cao hơn. Do đó, tôi hy vọng rằng hệ số của sẽ dương và hệ số của sẽ âm. Ngoài , tôi cũng bao gồm các biến dự đoán khác.xx2xx2xx2x

Tôi đọc trong một số bài viết ở đây rằng đó là một ý tưởng tốt để tập trung vào các biến trong trường hợp này để tránh đa cộng tuyến. Khi tiến hành hồi quy bội, khi nào bạn nên tập trung vào các biến dự đoán của mình & khi nào bạn nên chuẩn hóa chúng?

  1. Tôi nên tập trung cả hai biến riêng biệt (trung bình) hay tôi chỉ nên căn giữa và sau đó lấy hình vuông hoặc tôi chỉ nên căn giữa và bao gồm gốc ?xx2x

  2. Có vấn đề gì không nếu là biến đếm?x

Để tránh là một biến đếm, tôi nghĩ về việc chia nó cho một khu vực được xác định theo lý thuyết, ví dụ 5 km vuông. Điều này sẽ là một chút tương tự như một tính toán mật độ điểm.x

Tuy nhiên, tôi sợ rằng trong tình huống này, giả định ban đầu của tôi về dấu hiệu của các hệ số sẽ không giữ được nữa, như khi và x² = 4x=2x²=4

x=2/5 km2 = 0.4 km2

nhưng x2 sau đó sẽ nhỏ hơn vì x2=(2/5)2=0.16 .


1
Phần mềm hồi quy của bạn sẽ tự động xử lý các vấn đề về số - đặc biệt, phần mềm này rất có khả năng tập trung và chuẩn hóa dữ liệu của bạn trong nội bộ. Làm thế nào để trả lời các câu hỏi của bạn về định tâm đi xuống cách bạn muốn diễn giải các hệ số.
whuber

Câu trả lời:


4

Câu hỏi của bạn trong thực tế bao gồm một số câu hỏi phụ, mà tôi sẽ cố gắng giải quyết theo sự hiểu biết tốt nhất của tôi.

  • Làm cách nào để phân biệt sự phụ thuộc của giá trị thấp và cao vào hồi quy?

Xem xét và là một cách làm, nhưng bạn có chắc bài kiểm tra của mình là kết luận không? Bạn sẽ có thể kết luận một cái gì đó hữu ích cho tất cả các kết quả có thể có của hồi quy? Tôi nghĩ rằng việc đặt câu hỏi rõ ràng trước có thể giúp ích, và hỏi những câu hỏi tương tự và liên quan cũng có thể giúp ích. Chẳng hạn, bạn có thể xem xét một ngưỡng mà độ dốc hồi quy khác nhau. Điều này có thể được thực hiện bằng cách sử dụng các biến điều hành . Nếu các độ dốc khác nhau (trong khi áp đặt cùng một đánh chặn) tương thích thì bạn không có sự khác biệt, nếu không, bạn đã cung cấp cho mình một lập luận rõ ràng cho sự khác biệt của chúng.xx2x

  • Khi nào bạn nên tập trung và nổi bật?

Tôi nghĩ rằng câu hỏi này không nên được trộn lẫn với câu hỏi và bài kiểm tra đầu tiên và tôi sợ việc tập trung xung quanh hoặc trước có thể làm sai lệch kết quả. Tôi sẽ khuyên không nên tập trung, ít nhất là trong giai đoạn đầu tiên. Hãy nhớ rằng bạn có thể sẽ không chết vì đa cộng đồng, nhiều tác giả cho rằng nó chỉ tương đương với làm việc với cỡ mẫu nhỏ hơn ( ở đâyở đây ).xx2

  • Việc biến đổi biến đếm đếm rời rạc trong biến dấu phẩy động (liên tục) có làm thay đổi việc giải thích kết quả không?

Có, nhưng điều này sẽ phụ thuộc rất nhiều vào 2 điểm đầu tiên, vì vậy tôi sẽ đề nghị bạn giải quyết một việc tại một thời điểm. Tôi thấy không có lý do tại sao hồi quy sẽ không hoạt động nếu không có sự chuyển đổi này, vì vậy tôi sẽ khuyên bạn bỏ qua nó ngay bây giờ. Cũng lưu ý rằng bằng cách chia cho một yếu tố phổ biến, bạn đang thay đổi thang đo , nhưng có nhiều cách nhìn khác nhau, như tôi đã viết ở trên, trong đó ngưỡng này được xem xét theo cách rõ ràng hơn.x2=x


Cảm ơn bạn rất nhiều vì câu trả lời của bạn, đặc biệt là các liên kết !!!
Peter

Đó là một niềm vui để giúp đỡ. =)
pedrofigueira

4

Nói chung, việc định tâm có thể giúp làm giảm tính đa hình, nhưng "bạn có thể sẽ không chết vì đa thần" (xem câu trả lời của prerofigueira).

Quan trọng nhất, trung tâm thường là cần thiết để làm cho việc đánh chặn có ý nghĩa. Trong mô hình đơn giản , việc chặn được xác định là kết quả mong đợi cho . Nếu giá trị bằng 0 không có ý nghĩa, thì cả itercept đều không có ý nghĩa. Nó thường hữu ích để tập trung vào biến xung quanh giá trị trung bình của nó; trong trường hợp này, bộ dự đoán có dạng và chặn là kết quả mong đợi cho một chủ đề có giá trị trên bằng với trung bình .yi=α+βxi+εx=0xx(xix¯)αxix¯

Trong những trường hợp như vậy, bạn phải căn giữa rồi vuông. Bạn không thể căn giữa và một cách riêng biệt, vì bạn đang hồi quy kết quả trên một biến "mới", , vì vậy bạn phải bình phương biến mới này. Định tâm có nghĩa là gì?xxx2(xix¯)x2

Bạn có thể căn giữa một biến đếm, nếu ý nghĩa của nó là có ý nghĩa , nhưng bạn chỉ có thể mở rộng nó. Ví dụ: nếu và "2" có thể là đường cơ sở, bạn có thể trừ 2: . Việc chặn trở thành kết quả mong đợi cho một chủ đề có giá trị trên bằng "2", một giá trị tham chiếu.x=1,2,3,4,5(xi2)=1,0,1,2,3xi

Để phân chia, không có rắc rối: hệ số ước tính của bạn sẽ lớn hơn! Gelman và Hill , §4.1, đưa ra một ví dụ:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

Một inch là mm, vì vậy là . Một inch là emiles, vì vậy là . Nhưng ba phương trình này là hoàn toàn tương đương.25.4511300/25.41.6e5810000001300/1.6e5



Cảm ơn câu trả lời của bạn. Nó thực sự giúp tôi. Thật không may, tôi chỉ có thể đánh dấu một câu trả lời là câu trả lời được chấp nhận của tôi.
Peter

Không có gì. Và đừng lo lắng ;-)
Sergio

1

Tôi giả sử rằng các giá trị thấp của x có tác động tích cực đến biến phụ thuộc và giá trị cao có tác động tiêu cực.

Mặc dù tôi đánh giá cao cách đối xử của người khác về việc định tâm và giải thích các hệ số, nhưng những gì bạn mô tả ở đây chỉ đơn giản là một hiệu ứng tuyến tính. Nói cách khác, những gì bạn mô tả không cho thấy bất kỳ nhu cầu kiểm tra bình phương của x .


Theo quan điểm của tôi, nếu , hiệu ứng (một phần) của trên (hoặc, tốt hơn, trên ) là . Những hiệu ứng như vậy là không đổi, chúng không phụ thuộc vào mức độ . Nếu mô hình là , thì hiệu ứng một phần của là và tùy thuộc vào cấp độ . Điều này cũng có thể xảy ra trong các mô hình khác, ví dụ như trong các mô hình spline tuyến tính, nhưng không phải trong mô hình tuyến tính đơn giản (độ 1). Tôi có lầm không? y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio

@ rolando2: Tôi không chắc liệu chúng ta có nói về điều samte hay không. Nếu tôi chỉ bao gồm biến dự đoán thông thường, tôi sẽ nhận được một hệ số ước tính cho yếu tố dự đoán đó là dương hoặc âm. Dựa trên hệ số tôi có thể nói rằng bằng cách thêm một đơn vị vào x, y sẽ tăng hoặc giảm một lượng nhất định. Nhưng tôi không thể tìm ra cách này cho dù các giá trị nhỏ thực sự dẫn đến sự gia tăng của y, trong khi các giá trị cao hơn (từ một điểm chưa biết nhất định trở đi) dẫn đến giảm y.
Peter

@Peter - Tôi hiểu và tôi khuyên bạn nên chỉnh sửa câu "Tôi giả sử" câu hỏi của bạn để đọc: "Tôi giả sử rằng, ở một số khu vực của x, các giá trị cao hơn của x có tác động tích cực đến biến phụ thuộc, trong khi ở một số khu vực khác, giá trị cao hơn có tác động tiêu cực. "
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.