Điều gì có thể là lý do cho việc sử dụng chuyển đổi căn bậc hai trên dữ liệu?


15

Có bất kỳ lý do của những gì tôi có thể nghĩ, để chuyển đổi dữ liệu với một căn bậc hai? Ý tôi là điều tôi luôn quan sát là R ^ 2 tăng. Nhưng điều này có lẽ chỉ vì tập trung vào dữ liệu! Bất kỳ suy nghĩ được đánh giá cao!


Tôi đã trả lời câu hỏi này và câu hỏi tổng quát hơn ở đây stats.stackexchange.com/questions/18844/iêu
IrishStat

3
Nếu biến phụ thuộc là khác nhau, bình phương R không thể so sánh được.

Câu trả lời:


13

Nói chung, hồi quy tham số / GLM giả định rằng mối quan hệ giữa biến và mỗi biến X là tuyến tính, rằng phần dư sau khi bạn lắp mô hình tuân theo phân phối chuẩn và kích thước của phần dư vẫn giữ nguyên như nhau dọc theo đường dây được trang bị của bạn. Khi dữ liệu của bạn không tuân thủ các giả định này, các phép biến đổi có thể giúp ích. YX

Cần phải trực quan rằng nếu tỷ lệ với X 2 thì Y vuông gốc sẽ tuyến tính hóa mối quan hệ này, dẫn đến một mô hình phù hợp hơn với các giả định và giải thích nhiều phương sai hơn (có R 2 cao hơn ). Root vuông Y cũng giúp khi bạn gặp vấn đề là kích thước của phần dư của bạn tăng dần khi giá trị X của bạnYX2YR2YXtăng (tức là sự phân tán các điểm dữ liệu xung quanh đường được trang bị sẽ được đánh dấu nhiều hơn khi bạn di chuyển dọc theo nó). Hãy nghĩ về hình dạng của một hàm căn bậc hai: ban đầu nó tăng mạnh nhưng sau đó bão hòa. Vì vậy, áp dụng một biến đổi căn bậc hai làm tăng số lượng nhỏ hơn nhưng ổn định những cái lớn hơn. Vì vậy, bạn có thể nghĩ về nó như đẩy các phần dư nhỏ ở các giá trị thấp ra khỏi đường được trang bị và cắt các phần dư lớn ở các giá trị X cao về phía dòng. (Đây là tốc ký tinh thần không phải là toán học thích hợp!)XX

Như Dmitrij và ocram nói, đây chỉ là một phép chuyển đổi có thể giúp ích trong một số trường hợp nhất định và các công cụ như công thức Box-Cox có thể giúp bạn chọn một công cụ hữu ích nhất. Tôi sẽ khuyên bạn nên tập thói quen luôn nhìn vào các lô dư so với các giá trị được trang bị (và cả biểu đồ xác suất bình thường hoặc biểu đồ của phần dư) khi bạn khớp với một mô hình. Bạn sẽ thấy bạn thường sẽ có thể nhìn thấy từ những loại chuyển đổi này sẽ giúp ích gì.


Này cảm ơn nhé! Tôi biết chức năng boxcox, nhưng tôi đã tự hỏi vì lý do thực tế nào mà việc chuyển đổi sqrt có ý nghĩa! Cảm ơn bạn!
MarkDollar

1
nếu phương sai của các lỗi liên quan tuyến tính với cấp độ của chuỗi thì người ta sẽ thực hiện một phép biến đổi logarit. Nếu độ lệch chuẩn có liên quan tuyến tính với cấp độ của chuỗi thì người ta sẽ chuyển đổi căn bậc hai. Việc lựa chọn không liên quan gì đến kích thước của phần dư vì nó liên quan đến mức độ y và tất cả để làm với khớp nối / khử khớp nối trong giây thứ nhất và thứ hai.
IrishStat

1
Freya, +1 cho tốc ký tinh thần >> toán học thích hợp. Có phải trực giác đó cũng là một lý do để sử dụng L.5-metrics-for-clustering ?
chối

Xin chào, tôi sợ tôi không biết gì về việc phân cụm.
Freya Harrison

10

Việc chuyển đổi vuông gốc chỉ là một trường hợp đặc biệt của chuyển đổi điện Box-Cox (một cái nhìn tổng quan đẹp bởi Pengfi Li, có thể đọc hữu ích và được tìm thấy ở đây ), với và bỏ qua một số định tâm.λ=0.5

yN(Xβ,σ2In)

Tuy nhiên, đây là một giá trị cố định có thể là (và có lẽ là) không tối ưu. Trong R, bạn có thể xem xét một hàm từ carthư viện powerTransformgiúp ước tính giá trị tối ưu cho các phép biến đổi Box-Cox cho từng biến tham gia hồi quy tuyến tính hoặc bất kỳ dữ liệu nào bạn làm việc (xem example(powerTransform)chi tiết để biết thêm).


5

Khi biến tuân theo phân phối Poisson, kết quả của biến đổi căn bậc hai sẽ gần hơn với Gaussian.


Bạn có thể đưa ra một số lập luận cho yêu cầu này?
utdiscant

Nó không thực sự giúp ích nhiều cho phân phối riêng lẻ với một giá trị cụ thể của tham số, nhưng nó làm cho họ phân phối thu được khi tham số thay đổi, gần với một họ bình thường với phương sai không đổi
kjetil b halvorsen


3

Lấy căn bậc hai đôi khi được ủng hộ để làm cho một biến không bình thường xuất hiện như một biến bình thường trong các vấn đề hồi quy. Logarit là một chuyển đổi có thể phổ biến khác.


0

Ma trận khoảng cách được tính toán với Bray-Curtis thường không phải là số liệu cho một số dữ liệu, dẫn đến giá trị bản địa âm. Một trong những giải pháp để khắc phục vấn đề này là biến đổi (logarit, căn bậc hai hoặc căn bậc hai).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.