Hồi quy: Biến đổi biến

Khi biến đổi các biến, bạn có phải sử dụng tất cả các biến đổi giống nhau không? Ví dụ: tôi có thể chọn và chọn các biến được chuyển đổi khác nhau, như trong:

Đặt là tuổi, thời gian làm việc, thời gian cư trú và thu nhập. $x_1,x_2,x_3$

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Hoặc, bạn phải nhất quán với các biến đổi của bạn và sử dụng tất cả giống nhau? Như trong:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3)

Hiểu biết của tôi là mục tiêu của chuyển đổi là để giải quyết vấn đề về tính quy tắc. Nhìn vào biểu đồ của từng biến chúng ta có thể thấy rằng chúng thể hiện các phân phối rất khác nhau, điều này sẽ khiến tôi tin rằng các phép biến đổi cần thiết là khác nhau trên một biến theo cơ sở biến.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7])

văn bản thay thế

Cuối cùng, làm thế nào là hợp lệ để biến đổi các biến bằng cách sử dụng trong đó có giá trị? Biến đổi này có cần nhất quán trên tất cả các biến không hoặc nó có được sử dụng adhoc ngay cả đối với các biến không bao gồm 'không? $\log(x_n + 1)$ $x_n$ $0$ $0$

## R Code 
plot(df[1:7])

văn bản thay thế

r regression logistic data-transformation

— Brandon
nguồn

Người ta biến đổi biến phụ thuộc để đạt được tính đối xứng gần đúng và độ đồng nhất của phần dư . Các biến đổi của các biến độc lập có một mục đích khác nhau: xét cho cùng, trong hồi quy này, tất cả các giá trị độc lập được lấy là cố định, không ngẫu nhiên, do đó "tính chuẩn" không thể áp dụng được. Mục tiêu chính trong các phép biến đổi này là để đạt được các mối quan hệ tuyến tính với biến phụ thuộc (hoặc, thực sự, với logit của nó). (Mục tiêu này vượt quá các mục phụ trợ như giảm đòn bẩy dư thừahoặc đạt được một cách giải thích đơn giản về các hệ số.) Các mối quan hệ này là một thuộc tính của dữ liệu và hiện tượng tạo ra chúng, vì vậy bạn cần linh hoạt để chọn biểu thức lại thích hợp của từng biến riêng biệt với các biến khác. Cụ thể, không chỉ vấn đề khi sử dụng nhật ký, root và đối ứng, nó còn khá phổ biến. Nguyên tắc là (thường) không có gì đặc biệt về cách dữ liệu được biểu thị ban đầu, vì vậy bạn nên để dữ liệu gợi ý các biểu thức dẫn đến các mô hình lý thuyết hiệu quả, chính xác, hữu ích và (nếu có thể).

Các biểu đồ - phản ánh các phân phối đơn biến - thường gợi ý về một chuyển đổi ban đầu, nhưng không phải là chủ nghĩa. Kèm theo chúng với ma trận phân tán để bạn có thể kiểm tra các mối quan hệ giữa tất cả các biến.

Các biến đổi như trong đó là hằng số dương "giá trị bắt đầu" có thể hoạt động - và có thể được chỉ định ngay cả khi không có giá trị nào của bằng 0 - nhưng đôi khi chúng phá hủy các mối quan hệ tuyến tính. Khi điều này xảy ra, một giải pháp tốt là tạo hai biến. Một trong số chúng bằng khi là khác không và mặt khác là bất cứ thứ gì; thật tiện lợi khi để mặc định về không. Mặt khác, hãy gọi nó là , là một chỉ số cho biết có bằng 0 hay không: nó bằng 1 khi và bằng 0 nếu không. Những điều khoản này đóng góp một khoản tiền $\log(x + c)$ $c$ $x$ $\log(x)$ $x$ $z_x$ $x$ $x = 0$

β \log (x) + β_{0} z_{x}

$\beta \log(x) + \beta_0 z_x$

để ước tính. Khi , , thuật ngữ thứ hai sẽ bỏ đi chỉ còn lại . Khi , " " đã được đặt thành 0 trong khi , chỉ để lại giá trị . Do đó, ước tính hiệu ứng khi và ngược lại là hệ số của . $x \gt 0$ $z_x = 0$ $\beta \log(x)$ $x = 0$ $\log(x)$ $z_x = 1$ $\beta_0$ $\beta_0$ $x = 0$ $\beta$ $\log(x)$

— whuber
nguồn

Mô tả rất hữu ích, cảm ơn cho hướng dẫn và chi tiết về câu hỏi con của tôi là tốt.

— Brandon Bertelsen

pareonline.net/getvn.asp?v=15&n=12 Ostern (2002) khuyên bạn nên neo giá trị tối thiểu trong phân phối ở chính xác 1.0. pareonline.net/getvn.asp?v=8&n=6

— Chris

@Chris Tất cả các phép biến đổi Box-Cox cũng chuyển từ âm sang dương ở . Tuy nhiên, điều đó không liên quan đến một phép biến đổi phi tuyến, bởi vì nó có thể được theo dõi bởi bất kỳ phép biến đổi tuyến tính nào mà không thay đổi ảnh hưởng của nó đối với phương sai hoặc tuyến tính của mối quan hệ với một biến khác. Do đó, nếu khách hàng của bạn bị dị ứng với số âm, chỉ cần thêm một hằng số phù hợp sau khi chuyển đổi. Tuy nhiên, việc thêm hằng số trước khi chuyển đổi có thể có tác động sâu sắc - và đó là lý do tại sao không có khuyến nghị nào luôn sử dụng có thể đúng.

1

$1$

1

$1$

— whuber

Trong một trong các bộ dữ liệu của tôi mà tôi đang làm việc, tôi nhận thấy nếu tôi chuyển biến phản ứng phụ thuộc thành neo ở 1 và sử dụng phép biến đổi hộp cox để loại bỏ độ lệch, kết quả chuyển đổi đã làm suy yếu uy tín hàng đầu đối với phê bình của bạn. ;)

— Chris

@whuber Câu hỏi trước của tôi rất ngớ ngẩn (có thể sẽ xóa bình luận). Tất nhiên liên quan đến chỉ báo giả và KHÔNG liên tục trong mô hình. Cảm ơn bạn một lần nữa vì những giải thích sâu rộng và rõ ràng về thiết lập này; rất hữu ích cho công việc của tôi Nhìn chung, tôi thích tham số này hơn là cách tiếp cận tương đương khác .

β_{0}

$\beta_0$

z_{x}

$z_x$

— landroni