Chuyển đổi dữ liệu tỷ lệ: khi căn bậc hai arcsin không đủ


20

Có một sự thay thế (mạnh hơn?) Cho phép biến đổi căn bậc hai arcsin cho dữ liệu tỷ lệ / tỷ lệ không? Trong tập dữ liệu tôi đang làm việc tại thời điểm này, tính không đồng nhất được đánh dấu vẫn còn sau khi tôi áp dụng phép chuyển đổi này, tức là biểu đồ của phần dư so với giá trị được trang bị vẫn còn rất nhiều hình thoi.

Được chỉnh sửa để trả lời các bình luận: dữ liệu là quyết định đầu tư của những người tham gia thử nghiệm, những người có thể đầu tư 0-100% khoản đầu tư vào bội số 10%. Tôi cũng đã xem xét các dữ liệu này bằng cách sử dụng hồi quy logistic thông thường, nhưng muốn xem một glm hợp lệ sẽ tạo ra những gì. Ngoài ra, tôi có thể thấy câu trả lời là hữu ích cho công việc trong tương lai, vì căn bậc hai arcsin dường như được sử dụng như một giải pháp phù hợp với một kích thước trong lĩnh vực của tôi và tôi đã không bắt gặp bất kỳ giải pháp thay thế nào đang được sử dụng.


2
Các giá trị được trang bị từ là gì? Mô hình của bạn là gì? arcsin là (xấp xỉ) ổn định phương sai cho nhị thức, nhưng bạn vẫn sẽ có hiệu ứng "cạnh" nếu tỷ lệ gần bằng 0 hoặc 1 - vì phần bình thường thực sự bị cắt cụt.
xác suất

1
Hãy để tôi nhân đôi những gì @probabilityislogic đã nói và cũng hỏi về dữ liệu đến từ đâu. Có thể có một cái gì đó trong vấn đề gợi ý một sự chuyển đổi khác, hoặc một mô hình khác hoàn toàn, có thể phù hợp hơn và / hoặc có thể giải thích được.
JMS

1
@prob @JMS Tại sao chúng ta không để OP, người mà tôi tin là khá am hiểu về các số liệu thống kê, hãy thử lộ trình chuyển đổi trước? Sau đó, nếu điều đó không hiệu quả, sẽ có kết quả khi bắt đầu một chủ đề mới trong đó vấn đề được trình bày ít hơn. Nhận xét của bạn sẽ thích hợp trong bối cảnh đó.
whuber

1
Có những vấn đề lớn với sự biến đổi căn bậc hai của arcsine, được mô tả một cách thẳng thắn trong bài báo có tiêu đề thú vị arcsine là asinine: phân tích tỷ lệ trong sinh thái học
mkt - Tái lập lại

1
@mkt Cảm ơn bạn đã tham khảo, điều này đã đi thẳng vào bài giảng của học kỳ tiếp theo về các mô hình tuyến tính tổng quát.
Freya Harrison

Câu trả lời:


28

Chắc chắn rồi. John Tukey mô tả một gia đình biến đổi (tăng dần, một thành một) trong EDA . Nó dựa trên những ý tưởng này:

  1. Để có thể mở rộng các đuôi (về 0 và 1) như được điều khiển bởi một tham số.

  2. Tuy nhiên, để phù hợp với các giá trị (untransformed) ban đầu gần giữa ( 1/2 ), mà làm cho việc chuyển đổi dễ dàng hơn để giải thích.

  3. Để làm cho biểu thức lại đối xứng khoảng 1/2. Nghĩa là, nếu p được biểu thị lại dưới dạng f(p) , thì 1p sẽ được biểu thị lại dưới dạng f(p) .

Nếu bạn bắt đầu với bất kỳ gia tăng đơn điệu hàm số g:(0,1)R khả vi tại 1/2 bạn có thể điều chỉnh nó để đáp ứng các tiêu chí thứ hai và thứ ba: chỉ cần xác định

f(p)=g(p)g(1p)2g(1/2).

Tử số đối xứng rõ ràng (tiêu chí (3) ), bởi vì hoán đổi p với 1p đảo ngược phép trừ, do đó phủ định nó. Để thấy rằng (2) được thỏa mãn, lưu ý rằng mẫu số là chính xác là yếu tố cần thiết để làm cho f(1/2)=1. Nhớ lại rằng xấp xỉ đạo hàm các hành vi cục bộ của một hàm với một hàm tuyến tính; độ dốc 1=1:1 do đó có nghĩa là f(p)p(cộng với một hằng số 1/2 ) khi p là đủ gần 1/2. Đây là ý nghĩa trong đó các giá trị ban đầu được "phù hợp gần giữa."

Tukey gọi đây là phiên bản "gấp" của g . Gia đình anh ta bao gồm các biến đổi sức mạnh và log g(p)=pλ trong đó, khi λ=0 , chúng tôi xem xét g(p)=log(p) .

Hãy xem xét một số ví dụ. Khi λ=1/2 chúng tôi nhận được gốc gấp, hoặc "Froot," f(p)=1/2(p1p). Khi nàoλ=0 chúng ta có logarit gấp hoặc "flog,"f(p)=(log(p)log(1p))/4. Rõ ràng đây chỉ là bội số không đổi củaphép biến đổilogit,log(p1p).

Đồ thị cho lambda = 1, 1/2, 0 và arcsin

Trong biểu đồ này, đường màu xanh tương ứng với λ=1 , đường màu đỏ trung gian đểλ=1/2 , và dòng xanh cực đoan đểλ=0 . Dòng tiêu tan vàng là việc chuyển đổi arcsin,arcsin(2p1)/2=arcsin(p)arcsin(1/2). Các "phù hợp" dốc (tiêu chí(2)) gây ra tất cả các đồ thị để trùng gầnp=1/2.

Các giá trị hữu ích nhất của tham số λ nằm giữa 10 . (Bạn có thể làm cho đuôi thậm chí nặng hơn với các giá trị tiêu cực của λ , nhưng việc sử dụng này là hiếm.) λ=1 không làm bất cứ điều gì ở tất cả ngoại trừ recenter các giá trị ( f(p)=p1/2 ). Như λ co lại về phía zero, đuôi được kéo xa hơn về phía ± . Điều này thỏa mãn tiêu chí số 1. Như vậy, bằng cách chọn một giá trị thích hợp của λ , bạn có thể kiểm soát "sức mạnh" này lại biểu hiện ở đuôi.


whuber, biết bất kỳ chức năng R nào tự động thực hiện chức năng này?
Giăng

1
@ John Không tôi không, nhưng nó đủ đơn giản để thực hiện.
whuber

2
Tôi đã không thấy nó về cơ bản là khó khăn nhưng sẽ rất tuyệt nếu có thứ gì đó giống như các bản transtox boxcox tự động đưa ra lựa chọn tốt nhất cho lambda. Vâng, không khủng khiếp để thực hiện ...
John

2
Cảm ơn whuber, đây chính xác là loại mà tôi đang tìm kiếm và biểu đồ thực sự hữu ích. Chắc chắn đồng ý với John rằng một cái gì đó như boxcox sẽ hữu ích, nhưng điều này có vẻ đủ đơn giản để giải quyết.
Freya Harrison

7

Một cách để bao gồm là bao gồm một chuyển đổi được lập chỉ mục. Một cách chung là sử dụng bất kỳ hàm phân phối tích lũy đối xứng (nghịch đảo) nào sao cho F ( x )F(0)=0.5 . Một ví dụ là sự phân bố sinh viên t tiêu chuẩn, với ν bậc tự do. Tham số v điều khiển biến số biến đổi di chuyển đến vô cùng nhanh như thế nào. Nếu bạn đặt v = 1 thì bạn có biến đổi arctan:F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Điều này là cực đoan hơn nhiều so với arcsine, và cực đoan hơn biến đổi logit. Lưu ý rằng logit chuyển đổi có thể được tạm xấp xỉ bằng phân phối t với . SO theo một cách nào đó, nó cung cấp một liên kết gần đúng giữa các phép biến đổi logit và probit ( ν = ) và một phần mở rộng của chúng thành các phép biến đổi cực đoan hơn.ν8ν=

Vấn đề với những biến đổi là họ cung cấp ± khi tỷ lệ quan sát được bằng hoặc 0 . Vì vậy, bạn cần thu nhỏ những thứ này bằng cách nào đó - cách đơn giản nhất là thêm + 1 "thành công" và + 1 "thất bại".10+1+1


2
Vì nhiều lý do, Tukey khuyên bạn nên thêm +1/6 để tính. Lưu ý rằng câu trả lời này là một trường hợp đặc biệt của phương pháp gấp của Tukey mà tôi đã mô tả: bất kỳ CDF nào có PDF dương là đơn điệu; gấp một CDF đối xứng để nó không thay đổi.
whuber

2
Tôi đã tự hỏi sự gần đúng thô của bạn đến từ đâu. Làm thế nào để bạn đến ? Tôi không thể tái tạo điều này. Tôi chấp nhận điều đó xấp xỉ phải phá vỡ ở những thái cực của p gần 0 hoặc 1 , nhưng tôi thấy rằng ν = 5 là một trận đấu tốt hơn nhiều cho logit cho p gần 1 / 2 . Có lẽ bạn đang tối ưu hóa một số biện pháp về sự khác biệt trung bình giữa CDF của t νlogit ? νsố 8p01ν= =5p1/2tνlogit
whuber

2
@whuber - bạn cho tôi quá nhiều tín dụng. Đề xuất của tôi dựa trên việc xem xét biểu đồ pdf của , biểu đồ của pdf logistic f ( x ) = e - x ( 1 + e - x ) - 2 và biểu đồ pdf chuẩn thông thường. 5tsố 8f(x)=ex(1+ex)25 độ tự do phù hợp với sự suy yếu quá mức, và có thể tốt hơn.
xác suất

5
@whuber Một lý do để thêm 1/6 vào số đếm là số lượng "bắt đầu" kết quả xấp xỉ với giá trị trung bình giả định phân phối nhị thức với Jeffreys trước (tôi viết một chút về điều này ở đây: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-phao ). Tuy nhiên tôi không biết đây có phải là lý do của Tukey để thêm 1/6 không. Bạn có biết lý do của anh ấy có thể là gì không?
Rasmus Bååth

4
xxtôi<xxtôi= =x(xtôi)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.