Câu hỏi chính về chuyển đổi tỷ lệ (tôi sẽ sử dụng làm biểu tượng, tương tự nhưng không giống với ký hiệu của bạn) cho phép một số nhận xét chung.x
Trong phần tiếp theo tôi cho rằng động cơ chính của việc chuyển đổi tỷ lệ là hiệp phương sai (dự đoán, biến độc lập) là cải thiện sự gần đúng với tuyến tính của mối quan hệ, hoặc nếu trong chế độ thăm dò để có được ý tưởng rõ ràng hơn về hình dạng hoặc thực sự tồn tại bất kỳ mối quan hệ. Như thường lệ, liệu một hiệp phương sai (ví dụ) được phân phối bình thường không quan trọng như vậy. (Tỷ lệ là một mối quan hệ không quá xa của các biến chỉ báo với các giá trị không bao giờ có thể được phân phối bình thường và tỷ lệ cũng nhất thiết phải bị ràng buộc.)0,1
Nếu các tỷ lệ có thể đạt được các số 0 chính xác hoặc chính xác, thì điều cần thiết là một phép biến đổi được xác định cho các giới hạn đó, quy định rõ ràng về , vì log 0 không xác định. Ngoài ra, một hình dạng cụ thể lý tưởng đòi hỏi một số biện minh thực tế (khoa học, thực tế), nhưng thiếu đi theo một số phân tích đơn giản rằng log ( x + c ) rất nhạy cảm với giá trị của c , như bạn gợi ý. logxlog0log(x+c)c
Điều này dễ thấy hơn một chút với logarit đến cơ sở , vì vậy tạm thời hãy xem xét c = 10 k để log 10 ( x + 10 k ) ánh xạ x = 0 đến k .10c=10klog10(x+10k)x=0k
Do đó ánh xạ x = 0 đến 0 và x = 1 đến khoảng 0,01 , trong khi k = - 3 , c = 0,001 ánh xạ x = 0 đến - 3 và x = 1 chỉ một smidgen nhiều hơn 0 .k=0,c=1x=00x=10.301k=−3,c=0.001x=0−3x=10
Tương tự, bất cứ điều gì có nghĩa là 0 được ánh xạ tới các giới hạn tương tự, trong khi với xấp xỉ ngày càng tốt x = 1 được ánh xạ thành 0 .k=−6,−9,0x=10
Vì vậy, giới hạn dưới được kéo dài ra bên ngoài với các hằng số nhỏ hơn và nhỏ hơn , trong khi giới hạn trên vẫn giữ nguyên. Do đó, các phép biến đổi như vậy có thể kéo dài phần dưới của phạm vi và thậm chí tạo ra các ngoại lệ từ các giá trị rất nhỏ tại hoặc gần 0 .c0
Đơn giản, mọi người gợi ý điều này có lẽ tưởng tượng rằng (bây giờ với bất kỳ cơ sở nào bạn thích) nên hoạt động rất giống với log x cho small c , điều này rõ ràng đúng với x lớn , nhưng hoàn toàn không đúng với x nhỏ . Mặt khác, độ dốc lớn hơn và dốc hơn của log x là hàm của x vì x ↓ 0 có thể cắn ở đây rất khó.log(x+c)logxcxxlogxxx↓0
Có vẻ tốt hơn là tập trung vào các biến đổi thay đổi dần dần gần và (vì các lý do khác, nhưng có liên quan) cũng gần x = 1 .x=0x=1
Căn bậc hai và căn bậc ba và các lũy thừa khác được xác định hoàn toàn tốt cho x = 0 , 1 và thường giúp khi cần kéo dài các giá trị gần 0 . Nhưng những biến đổi này là nổi tiếng và tôi tập trung ở đây nhiều hơn vào một khả năng khác.xpx=0,10
Họ các quyền lực gấp được phổ biến bởi JW Tukey ( Phân tích dữ liệu khám phá , đọc, MA: Addison-Wesley, 1977) là một khả năng, và là
. Mặc dù không có ép buộc phải chọn quyền hạn cho phép tên gợi nhiều liên tưởng đơn giản, những lựa chọn p = 1 / 2 (gấp root) và p = 1 / 3 (căn bậc ba gấp) dường như các thành viên hữu ích nhất của gia đình này.xp−(1−x)pp=1/2p=1/3
Gia đình giống như quen thuộc chuyển đổi logit và thực sự logit là một trường hợp hạn chế như p có xu hướng 0 . Một sự khác biệt quan trọng là sức mạnh gấp được định nghĩa cho x = 0 , 1 và p ≠ 0 .logit x=logx−log(1−x)p0x=0,1p≠0
Các quyền hạn được gấp lại, bao gồm cả logit, xử lý các trường hợp cực đoan gần và 1 đối xứng và vẽ đồ thị như các đường cong sigmoid nghịch đảo (một số biểu đồ bên dưới) trộn lẫn hành vi cộng gộp và nhân, lặp lại định tính thường xuyên (nếu không phải là vật lý, sinh học, kinh tế, bất cứ điều gì) sự thật cho hiện tượng cơ bản đó01
sự khác biệt từ đến 0,02 có thể là một "vấn đề lớn" (chắc chắn, x thay đổi chỉ 0,01 , nhưng nó cũng tăng gấp đôi)0.010.02x0.01
sự khác biệt từ đến 0,99 cũng có thể là một "vấn đề lớn" (chắc chắn, x chỉ thay đổi 0,01 , nhưng "phân số không có" 1 - x cũng giảm một nửa)0.980.99x0.011−x
sự khác biệt từ đến 0,51 có thể là "thỏa thuận nhỏ hơn" (chắc chắn, x cũng thay đổi 0,01 , nhưng thay đổi tỷ lệ nhỏ hơn nhiều)0.500.51x0.01
Điều này có lẽ dễ nghĩ nhất khi một số động lực cơ bản được tưởng tượng: phần ngày càng tăng của những người biết chữ cần một cú hích lớn để đi, tăng tốc và sau đó chậm lại khi nó tiếp cận với sự không biết chữ của phổ cập. Vì vậy, đường cong trong thời gian có thể giống như một logistic tăng hoặc giảm. Việc tỷ lệ và 1 được tiếp cận chậm hơn hoặc chậm hơn tự nhiên là một trong một số động lực cho logit và các mô hình tương tự cho các phản ứng tỷ lệ; mặc dù chúng tôi ở đây tập trung vào các đồng biến tỷ lệ, sigmoids cũng có thể hữu ích ở đây.01
Các quyền hạn được gấp lại như gốc gấp hoặc gốc khối không phải là sigmoid mạnh như logit, nhưng một giá trị có giá trị ở đây là chúng được xác định trực tiếp và dễ dàng mà không cần fud, kyd hay nud cho .x=0,1
Chuyển sang tập dữ liệu giả nhưng có vẻ thực tế của bạn (mà tôi đã nhập vào phần mềm yêu thích của riêng tôi, nhưng phân tích đơn giản ở bất cứ thứ gì tử tế), hóa ra không có biến đổi nào trong số này thực sự giúp ích cả. Nhưng việc vẽ đồ thị dữ liệu đưa ra một cảnh báo rõ ràng rằng ngay cả là một phép biến đổi mạnh mẽ, cũng có thể được nhìn thấy bằng cách vẽ trực tiếp.log(x+0.001)
Hai điểm chính tôi muốn làm là
thường được đề xuất và thường được coi là vô hại, là một biến đổi nguy hiểm trừ khi được hiểu và thường không phù hợp bất cứ khi nào nó mở rộng phân phối cho x nhỏ(trừ khi đây thực sự là hành vi mong muốn).log(x+c)x
Đối với dữ liệu ví dụ của bạn, không có chuyển đổi nào tôi đã cố gắng để giúp đỡ.
Đồng thời, các khả năng khác là hết. (Đáng chú ý, tôi đã không thử căn bậc hai hoặc căn bậc hai, và nhấn mạnh rằng trong nhiều vấn đề khác, đó có thể là ứng cử viên rõ ràng và nghiêm trọng.)
Nhóm đồ thị đầu tiên chỉ đơn giản hiển thị một số phép biến đổi ứng viên cho các tỷ lệ có thể đạt được cả và 1 . (Tôi đã sử dụng logarit tự nhiên, nhưng hình dạng không phụ thuộc vào cơ sở được chọn).01
Nhóm biểu đồ thứ hai cho thấy không có biến đổi nào giúp ích nhiều cho dữ liệu mẫu. (Để so sánh, hồi quy đơn giản trên dữ liệu gốc mang lại %, RMSE = 0,994 .)R2=3.7=0.994
Câu đố nhỏ. của bạn được cho là một tỷ lệ, nhưng giá trị của nó là khoảng 6 đến 10 .y610
EDIT: Dữ liệu gốc có thể được vẽ ở đây vì OP đã đăng dữ liệu ngắn gọn, nhưng sau đó đã xóa chúng.
Các chủ đề khác ở đây sử dụng quyền hạn gấp bao gồm
Chuyển đổi dữ liệu tỷ lệ: khi căn bậc hai arcsin không đủ
Hồi quy: Scatterplot với R bình phương thấp và giá trị p cao
Vẽ một tập dữ liệu rất sai lệch