Kích thước hiệu ứng hồi quy tuyến tính khi sử dụng các biến được chuyển đổi


9

Khi thực hiện hồi quy tuyến tính, thường rất hữu ích khi thực hiện chuyển đổi, chẳng hạn như chuyển đổi log cho biến phụ thuộc để đạt được cấu trúc phân phối bình thường tốt hơn. Thông thường cũng rất hữu ích khi kiểm tra beta từ hồi quy để đánh giá tốt hơn kích thước hiệu ứng / mức độ phù hợp thực sự của kết quả.

Điều này đặt ra vấn đề là khi sử dụng ví dụ chuyển đổi nhật ký, kích thước hiệu ứng sẽ ở quy mô nhật ký và tôi được cho biết rằng do tính phi tuyến tính của thang đo đã sử dụng, việc chuyển đổi ngược lại các beta này sẽ dẫn đến các giá trị không có ý nghĩa không có bất kỳ việc sử dụng trong thế giới thực.

Cho đến nay chúng ta thường thực hiện hồi quy tuyến tính với các biến được chuyển đổi để kiểm tra mức ý nghĩa và sau đó là hồi quy tuyến tính với các biến không biến đổi ban đầu để xác định kích thước hiệu ứng.

Có một cách đúng / tốt hơn để làm điều này? Đối với hầu hết các phần chúng tôi làm việc với dữ liệu lâm sàng, vì vậy một ví dụ thực tế sẽ là xác định mức độ phơi nhiễm nhất định ảnh hưởng đến các biến tiếp theo như chiều cao, cân nặng hoặc một số phép đo trong phòng thí nghiệm và chúng tôi muốn kết luận điều gì đó như "phơi nhiễm A có hiệu quả tăng trọng lượng thêm 2 kg ".

Câu trả lời:


5

Tôi sẽ đề nghị rằng các phép biến đổi không quan trọng để có được phân phối bình thường cho các lỗi của bạn. Bình thường không phải là một giả định cần thiết. Nếu bạn có dữ liệu "đủ", định lý giới hạn trung tâm sẽ xuất hiện và các ước tính tiêu chuẩn của bạn trở nên bình thường không có triệu chứng. Ngoài ra, bạn có thể sử dụng bootstrapping như một phương tiện không tham số để ước tính các lỗi tiêu chuẩn. (Homoskedasticity, một phương sai phổ biến cho các quan sát giữa các đơn vị, là bắt buộc đối với các lỗi tiêu chuẩn của bạn là đúng; các tùy chọn mạnh mẽ cho phép không đồng nhất).

Thay vào đó, các phép biến đổi giúp đảm bảo rằng một mô hình tuyến tính là phù hợp. Để hiểu điều này, hãy xem xét cách chúng ta có thể diễn giải các hệ số trong các mô hình được chuyển đổi:

  • kết quả là đơn vị, người dự đoán là đơn vị: Một thay đổi đơn vị trong yếu tố dự đoán dẫn đến thay đổi đơn vị beta trong kết quả.
  • kết quả tính theo đơn vị, yếu tố dự đoán trong đơn vị nhật ký: Thay đổi một phần trăm trong yếu tố dự đoán dẫn đến thay đổi đơn vị beta / 100 trong kết quả.
  • kết quả trong các đơn vị nhật ký, dự đoán theo đơn vị: Một thay đổi một đơn vị trong dự đoán dẫn đến thay đổi beta x 100% trong kết quả.
  • kết quả trong các đơn vị nhật ký, dự đoán trong các đơn vị nhật ký: Một phần trăm thay đổi trong công cụ dự đoán dẫn đến thay đổi phần trăm beta trong kết quả.

Nếu các phép biến đổi là cần thiết để mô hình của bạn có ý nghĩa (nghĩa là để giữ tuyến tính), thì ước tính từ mô hình này nên được sử dụng để suy luận. Ước tính từ một mô hình mà bạn không tin là không hữu ích. Các diễn giải ở trên có thể khá hữu ích trong việc hiểu các ước tính từ một mô hình được chuyển đổi và thường có thể phù hợp hơn với câu hỏi trong tầm tay. Ví dụ, các nhà kinh tế thích công thức log-log vì việc giải thích beta là độ co giãn, một biện pháp quan trọng trong kinh tế học.

Tôi muốn nói thêm rằng phép biến đổi ngược không hoạt động vì kỳ vọng của hàm không phải là hàm của kỳ vọng; Nhật ký của giá trị dự kiến ​​của beta không phải là giá trị dự kiến ​​của nhật ký beta. Do đó, công cụ ước tính của bạn không thiên vị. Điều này cũng loại bỏ các lỗi tiêu chuẩn.


2

TRẢ LỜI NGẮN: Hoàn toàn chính xác, việc chuyển đổi trở lại của giá trị beta là vô nghĩa. Tuy nhiên, bạn có thể báo cáo sự phi tuyến tính như một cái gì đó như thế. "Nếu bạn nặng 100kg thì ăn hai miếng bánh mỗi ngày sẽ giúp bạn tăng khoảng 2kg trong một tuần. Tuy nhiên, nếu bạn nặng 200kg thì cân nặng của bạn sẽ tăng 2,5kg. Xem hình 1 để mô tả mối quan hệ phi tuyến tính này ( Hình 1 là sự phù hợp của đường cong trên dữ liệu thô). "

CÂU TRẢ LỜI DÀI:

Ý nghĩa của giá trị biến đổi trở lại khác nhau nhưng khi được thực hiện đúng cách nó thường có một số ý nghĩa.

Nếu bạn có hồi quy các giá trị log tự nhiên trên hai yếu tố dự đoán x với beta là 0,13 và chặn là 7,0, thì phép biến đổi trở lại là 0,13 (1,14) là khá vô nghĩa. Đúng rồi. Tuy nhiên, biến đổi trở lại của 7.13 sẽ là một giá trị có thể được hiểu theo một số ý nghĩa. Sau đó, bạn có thể trừ đi biến đổi trở lại của 7.0 và được để lại một giá trị còn lại là hiệu ứng của bạn trong thang đo có ý nghĩa (152.2). Nếu bạn muốn xem xét bất kỳ giá trị dự đoán nào, trước tiên bạn cần tính toán tất cả trong các giá trị nhật ký và sau đó chuyển đổi ngược lại. Điều này sẽ phải được thực hiện riêng cho mọi giá trị dự đoán và dẫn đến một đường cong nếu được vẽ biểu đồ.

Điều này thường hợp lý để làm nếu chuyển đổi của bạn có ảnh hưởng tương đối nhỏ đến dữ liệu của bạn. Chuyển đổi log của thời gian phản ứng là một loại giá trị có thể được chuyển đổi trở lại. Khi thực hiện đúng, bạn sẽ thấy rằng các giá trị có vẻ gần với giá trị trung bình thực hiện các phép tính đơn giản trên dữ liệu thô.

Ngay cả khi đó người ta phải cẩn thận với các tương tác và không tương tác. Các giá trị tương đối khác nhau trên quy mô. Phân tích rất nhạy cảm với giá trị nhật ký trong khi các giá trị được chuyển đổi phía sau có thể hiển thị các mẫu khác nhau khiến cho các tương tác dường như không nên ở đó hoặc ngược lại. Nói cách khác, bạn có thể chuyển đổi lại những thứ tạo ra những thay đổi nhỏ cho dữ liệu miễn là bạn cẩn thận.

Một số thay đổi, như biến đổi xác suất logistic, có thể có tác động khá lớn, đặc biệt là gần cuối thang đo. Một ví dụ về địa điểm mà bạn không bao giờ nên quay lại là các ô tương tác gần cuối xác suất cao hoặc thấp.


2

Câu hỏi là về hiệu ứng cận biên (của X trên Y), tôi nghĩ, không quá nhiều về việc diễn giải các hệ số riêng lẻ. Như dân gian đã lưu ý một cách hữu ích, đôi khi chúng chỉ có thể được xác định với kích thước hiệu ứng, ví dụ như khi có mối quan hệ tuyến tính và phụ gia.

Nếu đó là trọng tâm thì cách đơn giản nhất (về mặt khái niệm, nếu không thực tế) để suy nghĩ về vấn đề dường như là thế này:

Để có được hiệu quả biên của X trên Y trong một mô hình hồi quy tuyến tính với bình thường không có tương tác, bạn có thể chỉ cần nhìn vào hệ số trên X. Nhưng đó không phải là khá đủ kể từ khi người ta ước tính không được biết đến. Trong mọi trường hợp, những gì người ta thực sự muốn cho các hiệu ứng cận biên là một loại cốt truyện hoặc tóm tắt cung cấp dự đoán về Y cho một loạt các giá trị của X và thước đo độ không chắc chắn. Thông thường, người ta có thể muốn có nghĩa là Y và khoảng tin cậy được dự đoán, nhưng người ta cũng có thể muốn dự đoán về phân phối Y có điều kiện hoàn chỉnh cho X. Phân phối đó rộng hơn ước tính sigma của mô hình được trang bị vì nó không tính đến sự không chắc chắn về các hệ số mô hình .

Có nhiều giải pháp dạng đóng khác nhau cho các mô hình đơn giản như thế này. Đối với các mục đích hiện tại, chúng ta có thể bỏ qua chúng và thay vào đó suy nghĩ tổng quát hơn về cách lấy biểu đồ hiệu ứng cận biên đó bằng mô phỏng, theo cách xử lý các mô hình phức tạp tùy ý.

Giả sử bạn muốn các hiệu ứng thay đổi X trên giá trị trung bình của Y và bạn rất vui khi sửa tất cả các biến khác ở một số giá trị có ý nghĩa. Đối với mỗi giá trị mới của X, lấy mẫu B có kích thước từ phân phối các hệ số mô hình. Một cách dễ dàng để làm như vậy trong R là giả sử rằng nó là Bình thường với coef(model)ma trận trung bình và hiệp phương sai vcov(model). Tính toán một Y dự kiến ​​mới cho mỗi bộ hệ số và tóm tắt lô với một khoảng. Sau đó chuyển sang giá trị tiếp theo của X.

Đối với tôi, dường như phương pháp này sẽ không bị ảnh hưởng bởi bất kỳ biến đổi ưa thích nào được áp dụng cho bất kỳ biến nào, miễn là bạn cũng áp dụng chúng (hoặc nghịch đảo của chúng) trong mỗi bước lấy mẫu. Vì vậy, nếu mô hình được trang bị có log (X) như một công cụ dự đoán thì hãy đăng nhập X mới của bạn trước khi nhân nó với hệ số được lấy mẫu. Nếu mô hình được trang bị có sqrt (Y) là một biến phụ thuộc thì bình phương mỗi trung bình dự đoán trong mẫu trước khi tóm tắt chúng là một khoảng.

Tóm lại, lập trình nhiều hơn nhưng tính toán xác suất ít hơn và kết quả là các hiệu ứng cận biên dễ hiểu về mặt lâm sàng. "Phương pháp" này đôi khi được gọi là CLARIFY trong tài liệu khoa học chính trị, nhưng khá chung chung.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.