Tại sao chuyển đổi căn bậc hai được khuyến nghị cho dữ liệu đếm?


57

Chúng tôi thường khuyên bạn nên lấy căn bậc hai khi bạn có dữ liệu đếm. (Đối với một số ví dụ về CV, xem @ câu trả lời HarveyMotulsky của ở đây , hoặc @ câu trả lời whuber của ở đây .) Mặt khác, khi lắp một mô hình tuyến tính tổng quát với một biến phản ứng phân phối như Poisson, nhật ký là các liên kết kinh điển . Điều này giống như thực hiện chuyển đổi nhật ký dữ liệu phản hồi của bạn (mặc dù chính xác hơn là thực hiện chuyển đổi nhật ký của , tham số chi phối phân phối phản hồi). Vì vậy, có một số căng thẳng giữa hai. λ

  • Làm thế nào để bạn dung hòa sự khác biệt (rõ ràng) này?
  • Tại sao căn bậc hai sẽ tốt hơn logarit?

Câu trả lời:


45

Căn bậc hai xấp xỉ ổn định phương sai cho Poisson . Có một số biến thể trên căn bậc hai giúp cải thiện các thuộc tính, chẳng hạn như thêm38 trước khi lấy căn bậc hai hoặc Freeman-Tukey ( - mặc dù nó cũng thường được điều chỉnh cho trung bình).X+X+1

nhập mô tả hình ảnh ở đây

Chuyển đổi căn bậc hai phần nào cải thiện tính đối xứng - mặc dù không phải là sức mạnh không [1]:23

nhập mô tả hình ảnh ở đây

Nếu bạn đặc biệt muốn tính gần như bình thường (miễn là tham số của Poisson không thực sự nhỏ) và không quan tâm / có thể điều chỉnh độ không đồng nhất, hãy thử sức mạnh .23

Liên kết chính tắc nói chung không phải là một chuyển đổi đặc biệt tốt cho dữ liệu Poisson ; log zero là một vấn đề cụ thể (một vấn đề khác là sự không đồng nhất; bạn cũng có thể bị lệch trái ngay cả khi bạn không có 0). Nếu các giá trị nhỏ nhất không quá gần 0, nó có thể hữu ích cho việc tuyến tính hóa giá trị trung bình. Đó là một "chuyển đổi" tốt cho dân số điều kiện có nghĩa là một Poisson trong một số bối cảnh, nhưng không phải lúc nào cũng là dữ liệu Poisson. Tuy nhiên, nếu bạn muốn chuyển đổi, một chiến lược phổ biến là thêm hằng số để tránh vấn đề . Trong trường hợp đó chúng ta nên xem xét những gì cần thêm. Không cần đi quá xa câu hỏi, giá trị của trong khoảngy=log(y+c)0c0.4và hoạt động rất tốt (ví dụ liên quan đến sai lệch trong ước tính độ dốc) trên một phạm vi các giá trị . Tôi thường chỉ sử dụng vì nó đơn giản, với các giá trị khoảng thường hoạt động tốt hơn một chút.0.5μ120.43

Về lý do tại sao mọi người chọn một chuyển đổi trên một (hoặc không) - đó thực sự là vấn đề họ đang làm để đạt được điều gì.

[1]: Các ô được tạo khuôn theo các ô của Henrik Bengtsson trong bản phát hành "Các mô hình tuyến tính tổng quát và các phần dư được chuyển đổi" xem tại đây (xem slide đầu tiên trên p4). Tôi đã thêm một chút y-jitter và bỏ qua các dòng.


1
OK, tôi đã suy nghĩ về những gì bạn đã đặt ở đây, và đây là tổng hợp của tôi: Các phép biến đổi tối ưu khác nhau trong 2 tình huống này với những gì bạn đang cố gắng đạt được khác nhau. Các sqrt là tốt hơn để ổn định phương sai và bình thường hóa phân phối. Nhật ký ánh xạ khoảng thành cho phép chuyển đổi giá trị trung bình, , thành tuyến tính trong các tham số mô hình. Các sqrt không có tài sản này. Với GLiM, không có vấn đề gì về phương sai không đổi, b / c phân phối phản hồi được đặt là Poisson. Điều đó có đúng không? (0,+)(,+)λ
gung - Phục hồi Monica

2
Điều gì sẽ là tuyến tính trong các tham số phụ thuộc vào mô hình . Hoàn toàn có thể cho sự tuyến tính đó ở quy mô ban đầu hoặc quy mô căn bậc hai hoặc một số quy mô khác. Ngay cả thuộc tính - hữu ích / quan trọng - 'ánh xạ tới dòng thực' cũng không phải là duy nhất cho chức năng nhật ký. Lý do liên kết nhật ký là 'tự nhiên' là do cách đơn giản hóa GLM bằng cách có đủ số liệu thống kê về . Xy
Glen_b

1
+1 Căn bậc hai chỉ là điểm khởi đầu để xử lý dữ liệu đếm. Logarit cũng là một lựa chọn tốt. Dữ liệu thường sẽ cho bạn biết cái nào thành công hơn trong việc có được một mô tả hữu ích và cô đọng. Gung, trong câu trả lời mà bạn đề cập , chứng minh rằng căn bậc hai là một lựa chọn tốt nằm trong phân bố đối xứng của phần dư không bên ngoài rõ ràng trong hình bên tay phải. Khi bạn thay đổi các tham số của mô phỏng, bạn sẽ thấy tính đối xứng được duy trì.
whuber

1
@Glen Tôi không nói nhật ký luôn là một lựa chọn tốt. Nhưng đôi khi chúng vượt trội hơn rễ. Khi số không xuất hiện thì có, bạn cần một logarit "bắt đầu" . Các chủ đề khác ở đây đã thảo luận các cách để có được một giá trị bắt đầu . Khi không có số 0 trong dữ liệu, thì sẽ không có vấn đề gì với nhật ký cả.
whuber

2
@Tomas Vì lý do tại sao Freeman-Tukey hoặc thay vì hoặc đối với một số khác , có những lý do chính đáng cho cả Freeman-Tukey và (ví dụ, để làm cho độ lệch gần hơn 0), nhưng nếu bạn muốn đi sâu vào chi tiết, đó sẽ là một câu hỏi hoàn toàn mới. x+3/8xx+ccx+3/8
Glen_b
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.