Có bất kỳ lý do của những gì tôi có thể nghĩ, để chuyển đổi dữ liệu với một căn bậc hai? Ý tôi là điều tôi luôn quan sát là R ^ 2 tăng. Nhưng điều này có lẽ chỉ vì tập trung vào dữ liệu! Bất kỳ suy nghĩ được đánh giá cao!
Có bất kỳ lý do của những gì tôi có thể nghĩ, để chuyển đổi dữ liệu với một căn bậc hai? Ý tôi là điều tôi luôn quan sát là R ^ 2 tăng. Nhưng điều này có lẽ chỉ vì tập trung vào dữ liệu! Bất kỳ suy nghĩ được đánh giá cao!
Câu trả lời:
Nói chung, hồi quy tham số / GLM giả định rằng mối quan hệ giữa biến và mỗi biến X là tuyến tính, rằng phần dư sau khi bạn lắp mô hình tuân theo phân phối chuẩn và kích thước của phần dư vẫn giữ nguyên như nhau dọc theo đường dây được trang bị của bạn. Khi dữ liệu của bạn không tuân thủ các giả định này, các phép biến đổi có thể giúp ích.
Cần phải trực quan rằng nếu tỷ lệ với X 2 thì Y vuông gốc sẽ tuyến tính hóa mối quan hệ này, dẫn đến một mô hình phù hợp hơn với các giả định và giải thích nhiều phương sai hơn (có R 2 cao hơn ). Root vuông Y cũng giúp khi bạn gặp vấn đề là kích thước của phần dư của bạn tăng dần khi giá trị X của bạntăng (tức là sự phân tán các điểm dữ liệu xung quanh đường được trang bị sẽ được đánh dấu nhiều hơn khi bạn di chuyển dọc theo nó). Hãy nghĩ về hình dạng của một hàm căn bậc hai: ban đầu nó tăng mạnh nhưng sau đó bão hòa. Vì vậy, áp dụng một biến đổi căn bậc hai làm tăng số lượng nhỏ hơn nhưng ổn định những cái lớn hơn. Vì vậy, bạn có thể nghĩ về nó như đẩy các phần dư nhỏ ở các giá trị thấp ra khỏi đường được trang bị và cắt các phần dư lớn ở các giá trị X cao về phía dòng. (Đây là tốc ký tinh thần không phải là toán học thích hợp!)
Như Dmitrij và ocram nói, đây chỉ là một phép chuyển đổi có thể giúp ích trong một số trường hợp nhất định và các công cụ như công thức Box-Cox có thể giúp bạn chọn một công cụ hữu ích nhất. Tôi sẽ khuyên bạn nên tập thói quen luôn nhìn vào các lô dư so với các giá trị được trang bị (và cả biểu đồ xác suất bình thường hoặc biểu đồ của phần dư) khi bạn khớp với một mô hình. Bạn sẽ thấy bạn thường sẽ có thể nhìn thấy từ những loại chuyển đổi này sẽ giúp ích gì.
Việc chuyển đổi vuông gốc chỉ là một trường hợp đặc biệt của chuyển đổi điện Box-Cox (một cái nhìn tổng quan đẹp bởi Pengfi Li, có thể đọc hữu ích và được tìm thấy ở đây ), với và bỏ qua một số định tâm.
Tuy nhiên, đây là một giá trị cố định có thể là (và có lẽ là) không tối ưu. Trong R, bạn có thể xem xét một hàm từ car
thư viện powerTransform
giúp ước tính giá trị tối ưu cho các phép biến đổi Box-Cox cho từng biến tham gia hồi quy tuyến tính hoặc bất kỳ dữ liệu nào bạn làm việc (xem example(powerTransform)
chi tiết để biết thêm).
Khi biến tuân theo phân phối Poisson, kết quả của biến đổi căn bậc hai sẽ gần hơn với Gaussian.
Ma trận khoảng cách được tính toán với Bray-Curtis thường không phải là số liệu cho một số dữ liệu, dẫn đến giá trị bản địa âm. Một trong những giải pháp để khắc phục vấn đề này là biến đổi (logarit, căn bậc hai hoặc căn bậc hai).