Cách thích hợp nhất để biến đổi tỷ lệ khi chúng là một biến độc lập là gì?

Tôi nghĩ rằng tôi đã hiểu vấn đề này, nhưng bây giờ tôi không chắc chắn và tôi muốn kiểm tra với những người khác trước khi tôi tiến hành.

Tôi có hai biến, Xvà Y. Ylà một tỷ lệ, và nó không bị giới hạn bởi 0 và 1 và thường được phân phối bình thường. Xlà một tỷ lệ và được giới hạn bởi 0 và 1 (nó chạy từ 0,0 đến 0,6). Khi tôi chạy hồi quy tuyến tính Y ~ Xvà tôi phát hiện ra điều đó Xvà Ycó liên quan tuyến tính đáng kể. Càng xa càng tốt.

Nhưng sau đó tôi điều tra thêm và tôi bắt đầu nghĩ rằng có lẽ Xvà Ymối quan hệ của họ có thể có nhiều đường cong hơn là tuyến tính. Đối với tôi, nó trông giống như mối quan hệ của Xvà Ycó thể gần gũi hơn với Y ~ log(X), Y ~ sqrt(X)hay Y ~ X + X^2, hoặc một cái gì đó như thế. Tôi có những lý do thực nghiệm để cho rằng mối quan hệ có thể là đường cong, nhưng không phải là lý do để cho rằng bất kỳ mối quan hệ phi tuyến tính nào có thể tốt hơn bất kỳ mối quan hệ nào khác.

Tôi có một vài câu hỏi liên quan từ đây. Đầu tiên, Xbiến của tôi có bốn giá trị: 0, 0,2, 0,4 và 0,6. Khi tôi đăng nhập hoặc chuyển đổi căn bậc hai các dữ liệu này, khoảng cách giữa các giá trị này sẽ biến dạng để các giá trị 0 nằm cách xa tất cả các dữ liệu khác. Vì thiếu một cách tốt hơn để hỏi, đây có phải là điều tôi muốn? Tôi cho rằng không phải như vậy, vì tôi nhận được kết quả rất khác nhau tùy thuộc vào mức độ biến dạng mà tôi chấp nhận. Nếu đây không phải là điều tôi muốn, tôi nên tránh bằng cách nào?

Thứ hai, để chuyển đổi nhật ký các dữ liệu này, tôi phải thêm một số tiền vào mỗi Xgiá trị vì bạn không thể lấy nhật ký bằng 0. Khi tôi thêm một lượng rất nhỏ, giả sử 0,001, tôi bị biến dạng rất đáng kể. Khi tôi thêm một số tiền lớn hơn, nói 1, tôi nhận được rất ít biến dạng. Có một số tiền "chính xác" để thêm vào một Xbiến? Hoặc không phù hợp để thêm bất cứ điều gì vào một Xbiến thay vì chọn một phép biến đổi thay thế (ví dụ: khối lập phương) hoặc mô hình (ví dụ hồi quy logistic)?

Những gì tôi đã có thể tìm ra ở đó về vấn đề này khiến tôi cảm thấy mình nên bước đi cẩn thận. Đối với người dùng R, mã này sẽ tạo một số dữ liệu có cấu trúc tương tự như của tôi.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

— Bajcz
nguồn

Bạn nói rằng Y là một tỷ lệ, nhưng trong dữ liệu của bạn, nó nằm trong khoảng từ 6 đến 10?

Vâng, tôi đã sửa lỗi này ở trên - đó là tỷ lệ, không phải tỷ lệ.

— Bajcz

Câu hỏi chính về chuyển đổi tỷ lệ (tôi sẽ sử dụng làm biểu tượng, tương tự nhưng không giống với ký hiệu của bạn) cho phép một số nhận xét chung. $x$

Trong phần tiếp theo tôi cho rằng động cơ chính của việc chuyển đổi tỷ lệ là hiệp phương sai (dự đoán, biến độc lập) là cải thiện sự gần đúng với tuyến tính của mối quan hệ, hoặc nếu trong chế độ thăm dò để có được ý tưởng rõ ràng hơn về hình dạng hoặc thực sự tồn tại bất kỳ mối quan hệ. Như thường lệ, liệu một hiệp phương sai (ví dụ) được phân phối bình thường không quan trọng như vậy. (Tỷ lệ là một mối quan hệ không quá xa của các biến chỉ báo với các giá trị không bao giờ có thể được phân phối bình thường và tỷ lệ cũng nhất thiết phải bị ràng buộc.) $0, 1$

Nếu các tỷ lệ có thể đạt được các số 0 chính xác hoặc chính xác, thì điều cần thiết là một phép biến đổi được xác định cho các giới hạn đó, quy định rõ ràng về , vì không xác định. Ngoài ra, một hình dạng cụ thể lý tưởng đòi hỏi một số biện minh thực tế (khoa học, thực tế), nhưng thiếu đi theo một số phân tích đơn giản rằng rất nhạy cảm với giá trị của , như bạn gợi ý. $\log x$ $\log 0$ $\log (x + c)$ $c$

Điều này dễ thấy hơn một chút với logarit đến cơ sở , vì vậy tạm thời hãy xem xét để ánh xạ đến . $10$ $c = 10^k$ $\log_{10} (x + 10^k)$ $x = 0$ $k$

Do đó ánh xạ đến và đến khoảng , trong khi ánh xạ đến và chỉ một smidgen nhiều hơn . $k = 0, c = 1$ $x = 0$ $0$ $x = 1$ $0.301$ $k = -3, c = 0.001$ $x = 0$ $-3$ $x = 1$ $0$

Tương tự, bất cứ điều gì có nghĩa là được ánh xạ tới các giới hạn tương tự, trong khi với xấp xỉ ngày càng tốt được ánh xạ thành . $k = -6, -9,$ $0$ $x = 1$ $0$

Vì vậy, giới hạn dưới được kéo dài ra bên ngoài với các hằng số nhỏ hơn và nhỏ hơn , trong khi giới hạn trên vẫn giữ nguyên. Do đó, các phép biến đổi như vậy có thể kéo dài phần dưới của phạm vi và thậm chí tạo ra các ngoại lệ từ các giá trị rất nhỏ tại hoặc gần . $c$ $0$

Đơn giản, mọi người gợi ý điều này có lẽ tưởng tượng rằng (bây giờ với bất kỳ cơ sở nào bạn thích) nên hoạt động rất giống với cho small , điều này rõ ràng đúng với lớn , nhưng hoàn toàn không đúng với nhỏ . Mặt khác, độ dốc lớn hơn và dốc hơn của là hàm của vì có thể cắn ở đây rất khó. $\log (x + c)$ $\log x$ $c$ $x$ $x$ $\log x$ $x$ $x \downarrow 0$

Có vẻ tốt hơn là tập trung vào các biến đổi thay đổi dần dần gần và (vì các lý do khác, nhưng có liên quan) cũng gần . $x = 0$ $x = 1$

Căn bậc hai và căn bậc ba và các lũy thừa khác được xác định hoàn toàn tốt cho và thường giúp khi cần kéo dài các giá trị gần . Nhưng những biến đổi này là nổi tiếng và tôi tập trung ở đây nhiều hơn vào một khả năng khác. $x^p$ $x = 0, 1$ $0$

Họ các quyền lực gấp được phổ biến bởi JW Tukey ( Phân tích dữ liệu khám phá , đọc, MA: Addison-Wesley, 1977) là một khả năng, và là . Mặc dù không có ép buộc phải chọn quyền hạn cho phép tên gợi nhiều liên tưởng đơn giản, những lựa chọn (gấp root) và (căn bậc ba gấp) dường như các thành viên hữu ích nhất của gia đình này. $x^p - (1 - x)^p$ $p = 1/2$ $p = 1/3$

Gia đình giống như quen thuộc chuyển đổi logit và thực sự logit là một trường hợp hạn chế như có xu hướng . Một sự khác biệt quan trọng là sức mạnh gấp được định nghĩa cho và . $\text{logit}\ x = \log x - \log (1 - x)$ $p$ $0$ $x = 0, 1$ $p \ne 0$

Các quyền hạn được gấp lại, bao gồm cả logit, xử lý các trường hợp cực đoan gần và đối xứng và vẽ đồ thị như các đường cong sigmoid nghịch đảo (một số biểu đồ bên dưới) trộn lẫn hành vi cộng gộp và nhân, lặp lại định tính thường xuyên (nếu không phải là vật lý, sinh học, kinh tế, bất cứ điều gì) sự thật cho hiện tượng cơ bản đó $0$ $1$

sự khác biệt từ đến có thể là một "vấn đề lớn" (chắc chắn, thay đổi chỉ , nhưng nó cũng tăng gấp đôi) $0.01$ $0.02$ $x$ $0.01$
sự khác biệt từ đến cũng có thể là một "vấn đề lớn" (chắc chắn, thay đổi , nhưng "phân số không có" cũng giảm một nửa) $0.98$ $0.99$ $x$ $0.01$ $1 - x$
sự khác biệt từ đến có thể là "thỏa thuận nhỏ hơn" (chắc chắn, thay đổi , nhưng thay đổi tỷ lệ nhỏ hơn nhiều) $0.50$ $0.51$ $x$ $0.01$

Điều này có lẽ dễ nghĩ nhất khi một số động lực cơ bản được tưởng tượng: phần ngày càng tăng của những người biết chữ cần một cú hích lớn để đi, tăng tốc và sau đó chậm lại khi nó tiếp cận với sự không biết chữ của phổ cập. Vì vậy, đường cong trong thời gian có thể giống như một logistic tăng hoặc giảm. Việc tỷ lệ và được tiếp cận chậm hơn hoặc chậm hơn tự nhiên là một trong một số động lực cho logit và các mô hình tương tự cho các phản ứng tỷ lệ; mặc dù chúng tôi ở đây tập trung vào các đồng biến tỷ lệ, sigmoids cũng có thể hữu ích ở đây. $0$ $1$

Các quyền hạn được gấp lại như gốc gấp hoặc gốc khối không phải là sigmoid mạnh như logit, nhưng một giá trị có giá trị ở đây là chúng được xác định trực tiếp và dễ dàng mà không cần fud, kyd hay nud cho . $x = 0, 1$

Chuyển sang tập dữ liệu giả nhưng có vẻ thực tế của bạn (mà tôi đã nhập vào phần mềm yêu thích của riêng tôi, nhưng phân tích đơn giản ở bất cứ thứ gì tử tế), hóa ra không có biến đổi nào trong số này thực sự giúp ích cả. Nhưng việc vẽ đồ thị dữ liệu đưa ra một cảnh báo rõ ràng rằng ngay cả là một phép biến đổi mạnh mẽ, cũng có thể được nhìn thấy bằng cách vẽ trực tiếp. $\log(x + 0.001)$

Hai điểm chính tôi muốn làm là

thường được đề xuất và thường được coi là vô hại, là một biến đổi nguy hiểm trừ khi được hiểu và thường không phù hợp bất cứ khi nào nó mở rộng phân phối cho nhỏ(trừ khi đây thực sự là hành vi mong muốn). $\log (x + c)$ $x$
Đối với dữ liệu ví dụ của bạn, không có chuyển đổi nào tôi đã cố gắng để giúp đỡ.

Đồng thời, các khả năng khác là hết. (Đáng chú ý, tôi đã không thử căn bậc hai hoặc căn bậc hai, và nhấn mạnh rằng trong nhiều vấn đề khác, đó có thể là ứng cử viên rõ ràng và nghiêm trọng.)

Nhóm đồ thị đầu tiên chỉ đơn giản hiển thị một số phép biến đổi ứng viên cho các tỷ lệ có thể đạt được cả và . (Tôi đã sử dụng logarit tự nhiên, nhưng hình dạng không phụ thuộc vào cơ sở được chọn). $0$ $1$

Nhóm biểu đồ thứ hai cho thấy không có biến đổi nào giúp ích nhiều cho dữ liệu mẫu. (Để so sánh, hồi quy đơn giản trên dữ liệu gốc mang lại %, RMSE .) $R^2 = 3.7$ $= 0.994$

Câu đố nhỏ. của bạn được cho là một tỷ lệ, nhưng giá trị của nó là khoảng đến . $y$ $6$ $10$

EDIT: Dữ liệu gốc có thể được vẽ ở đây vì OP đã đăng dữ liệu ngắn gọn, nhưng sau đó đã xóa chúng.

Các chủ đề khác ở đây sử dụng quyền hạn gấp bao gồm

Chuyển đổi dữ liệu tỷ lệ: khi căn bậc hai arcsin không đủ

Hồi quy: Scatterplot với R bình phương thấp và giá trị p cao

Vẽ một tập dữ liệu rất sai lệch

— Nick Cox
nguồn

Câu trả lời tuyệt vời và rất kỹ lưỡng. Tôi nghĩ tôi nên nói rằng Ytỷ lệ của tôi chứ không phải là tỷ lệ, có lẽ là một sự khác biệt khá lớn, vì vậy thật tốt khi bạn chỉ ra.

— Bajcz

Tỷ lệ bị giới hạn khi tôi xác định chúng. Cảm ơn đã làm rõ, điều này không tạo ra bất kỳ sự khác biệt nào đối với phân tích của tôi (đó là lý do tại sao tôi gắn nhãn cho nó một chi tiết nhỏ).

— Nick Cox

Nhận xét thêm: Về nguyên tắc, bạn có thể kiểm tra độ cong v.v ... bằng cách sử dụng spline hoặc máy làm mịn, nhưng chỉ với 4 cấp độ khác nhau của công cụ dự đoán là không dễ dàng. Tôi sẽ xem xét hồi quy lượng tử cho dữ liệu của bạn.

— Nick Cox

x^{2}

$x^2$

x^{3}

$x^3$

1 ↓

$1\downarrow$

0 ↑

$0\uparrow$

x = 0, 1

$x = 0,1$