Chuyển đổi dữ liệu: Tất cả các biến hoặc chỉ những biến không bình thường?


14

Trong Thống kê Khám phá của Andy Field bằng SPSS, ông nói rằng tất cả các biến phải được chuyển đổi.

Tuy nhiên, trong ấn phẩm: "Kiểm tra các mối quan hệ khác nhau giữa sử dụng đất và chất lượng nước bằng phương pháp hồi quy theo trọng số địa lý I: Thiết kế và đánh giá mô hình" họ nói rõ rằng chỉ các biến không bình thường được chuyển đổi.

Là phân tích cụ thể? Ví dụ, khi so sánh các phương tiện, so sánh các bản ghi với dữ liệu thô rõ ràng sẽ mang lại một sự khác biệt đáng kể, trong khi khi sử dụng một cái gì đó như hồi quy để điều tra mối quan hệ giữa các biến thì nó trở nên ít quan trọng hơn.

Chỉnh sửa: Đây là trang toàn văn trong phần "Chuyển đổi dữ liệu":

Và đây là liên kết đến bài báo: http://www.scTHERirect.com/science/article/pii/S0036169708009121


16
Dựa trên hình ảnh mới mà bạn đăng, tác giả dường như nhầm lẫn giữa "biến" với "quan sát". Trên đầu trang của p. 154 ông nhấn mạnh một cách đúng đắn rằng khi bạn biến đổi một biến, bạn phải biến đổi tất cả các giá trị của nó (các quan sát) theo cùng một cách, vì nếu không thì không thể so sánh bất cứ điều gì. (Tuy nhiên, việc khẳng định "sẽ không thay đổi mối quan hệ giữa các biến" đòi hỏi một cách giải thích cực kỳ hào phóng là chính xác.) Phần dưới cùng của p. 154 hoàn toàn sai, từng câu từng chữ (thậm chí vào phần chú thích), đến nỗi nó không đáng để dành thời gian để liệt kê tất cả các vấn đề với nó.
whuber

Câu trả lời:


17

Bạn trích dẫn một vài lời khuyên, tất cả trong số đó không nghi ngờ gì là có ích, nhưng rất khó để tìm thấy nhiều công đức trong đó.

Trong mỗi trường hợp tôi hoàn toàn dựa vào những gì bạn trích dẫn như một bản tóm tắt. Để bảo vệ các tác giả, tôi muốn tin rằng họ bổ sung các bằng cấp phù hợp trong các tài liệu xung quanh hoặc khác. (Tài liệu tham khảo đầy đủ về thư mục theo tên thông thường, ngày, tiêu đề, (nhà xuất bản, địa điểm) hoặc (tiêu đề tạp chí, tập, trang) sẽ tăng cường câu hỏi.)

Cánh đồng

Lời khuyên này được dự định một cách hữu ích, nhưng tốt nhất là quá đơn giản. Lời khuyên của lĩnh vực dường như được dự định nói chung; ví dụ, tham chiếu đến thử nghiệm của Levene ngụ ý một số trọng tâm tạm thời về phân tích phương sai.

(1,0) . Cái sau (a) không thể được ghi lại (b) không nên được ghi lại. (Thật vậy, bất kỳ sự biến đổi nào của một biến chỉ báo thành hai giá trị riêng biệt đều không có ảnh hưởng quan trọng.)

Tổng quát hơn, điều phổ biến - trong nhiều lĩnh vực, tình huống thông thường - rằng một số dự đoán nên được chuyển đổi và phần còn lại vẫn như cũ.

Đúng là bắt gặp trong một bài báo hoặc luận văn một hỗn hợp các phép biến đổi được áp dụng khác nhau cho các yếu tố dự đoán khác nhau (bao gồm cả trường hợp đặc biệt, chuyển đổi nhận dạng hoặc để nguyên như vậy) thường là vấn đề đáng quan tâm đối với người đọc. Là sự pha trộn một bộ các lựa chọn được suy nghĩ tốt, hoặc nó là tùy tiện và thất thường?

Hơn nữa, trong một loạt các nghiên cứu về tính nhất quán của phương pháp tiếp cận (luôn áp dụng logarit cho phản hồi hoặc không bao giờ thực hiện) sẽ hỗ trợ rất nhiều trong việc so sánh kết quả, và cách tiếp cận khác nhau khiến việc này trở nên khó khăn hơn.

Nhưng điều đó không có nghĩa là không bao giờ có thể có lý do cho sự pha trộn của các biến đổi.

Tôi không thấy rằng hầu hết các phần bạn trích dẫn có liên quan nhiều đến lời khuyên chính mà bạn nhấn mạnh bằng màu vàng. Bản thân điều này là một vấn đề đáng quan tâm: đó là một doanh nghiệp kỳ lạ để công bố một quy tắc tuyệt đối và sau đó không thực sự giải thích nó. Ngược lại, lệnh "Ghi nhớ" gợi ý rằng căn cứ của Trường đã được cung cấp trước đó trong cuốn sách.

Giấy nặc danh

Bối cảnh ở đây là mô hình hồi quy. Như thường lệ, nói về OLS nhấn mạnh một cách kỳ lạ phương pháp ước tính hơn là mô hình, nhưng chúng ta có thể hiểu những gì được dự định. GWR tôi hiểu là hồi quy trọng số theo địa lý.

Lập luận ở đây là bạn nên chuyển đổi các yếu tố dự đoán không bình thường và để nguyên các yếu tố khác. Một lần nữa, điều này đặt ra một câu hỏi về những gì bạn có thể và nên làm với các biến chỉ báo, không thể phân phối bình thường (điều này có thể được trả lời bằng cách chỉ ra rằng tính không quy tắc trong trường hợp đó không phải là vấn đề). Nhưng lệnh này có nghĩa ngược với ngụ ý rằng đó là vấn đề không bình thường của các yếu tố dự đoán. Không phải vậy; nó không phải là một phần của mô hình hồi quy để giả định bất cứ điều gì về phân phối biên của các yếu tố dự đoán.

Xβ

Có rất nhiều lời khuyên cực kỳ tốt về các biến đổi trong diễn đàn này mà tôi đã tập trung thảo luận về những gì bạn trích dẫn.

PS Bạn thêm một câu lệnh bắt đầu "Ví dụ, khi so sánh các phương tiện, so sánh các bản ghi với dữ liệu thô rõ ràng sẽ mang lại một sự khác biệt đáng kể." Tôi không rõ bạn đang nghĩ gì, nhưng so sánh các giá trị cho một nhóm với logarit của các giá trị cho một nhóm khác sẽ chỉ là vô nghĩa. Tôi không hiểu phần còn lại của tuyên bố của bạn.


Nick, tôi muốn đưa ra quan điểm của mình một cách nhanh chóng và chính xác, điều mà tôi cảm thấy mình đã làm. Trong thế giới của Google, tôi đã cung cấp đủ thông tin để dễ dàng truy cập các tài liệu gốc, nếu cần. Cảm ơn bạn đã trả lời, mặc dù trong một vòng, bạn đã cung cấp cho tôi chính xác thông tin mà tôi đang tìm kiếm: Phải chuyển đổi tất cả các biến, như đề xuất của Field, trong Phần Chuyển đổi dữ liệu của anh ấy là một cách tiếp cận không chính xác để chuyển đổi dữ liệu.
I Heart Beats

14
+1. Tôi ngạc nhiên về cách bạn đã khéo léo xử lý các tài liệu sai hoàn toàn. Đọc lướt qua các trang ở đây và trong cuốn sách SPSS cung cấp cái nhìn sâu sắc về một số câu hỏi thực sự bối rối mà chúng tôi nhận được trên trang web này: Tôi nghĩ rằng chúng phải đến từ những người đọc cuốn sách đó. Nó có đầy đủ các lỗi, thông tin sai lệch, và sự kết hợp hoàn toàn.
whuber

@I Heart Beats Rất vui khi bạn tìm thấy câu trả lời hữu ích, nhưng yêu cầu của tôi về giá trị tham chiếu thích hợp. Bạn cũng có thể nói rằng các tài liệu tham khảo không đầy đủ luôn có thể phòng thủ được vì những người quan tâm luôn có thể Google. Trái lại, học bổng và khoa học tốt được giúp đỡ bằng cách thực hành thư mục tốt, cung cấp đầy đủ chi tiết và không khiến (nhiều) độc giả làm những việc không cần thiết.
Nick Cox

@Nick xem các chỉnh sửa trong câu hỏi của tôi. Tôi tin rằng bài viết đó là nguồn mở và tôi đã thêm một trang đầy đủ của văn bản cho ngữ cảnh.
I Heart Beats

8
Cảm ơn đã tăng cường các tài liệu tham khảo. Bạn đã trích dẫn thêm từ lĩnh vực. Có một phần bổ sung có thể nhìn thấy bao gồm xác nhận rằng "chuyển đổi dữ liệu sẽ không thay đổi mối quan hệ giữa các biến". Hoặc là xoay quanh một ý nghĩa bình dị của "mối quan hệ", hoặc (nhiều khả năng, tôi sợ) nó là vô ích, thực sự khá sai lầm. Tôi rất tiếc (theo một nghĩa nào đó) đã đồng ý với @whuber về cuốn sách được đề cập về bằng chứng trước mặt chúng tôi . (Cập nhật: whuber đã thực hiện cùng một điểm cùng một lúc: xem nhận xét của anh ấy về câu hỏi.)
Nick Cox

10

Trước hết, cả hai trích dẫn đều sai lệch khi bất kỳ phép chuyển đổi nào được áp dụng cho dữ liệu được sử dụng trong mô hình hồi quy không được thực hiện để làm cho các tệp PDF biến được phân phối bình thường hơn, nó được thực hiện để làm cho mô hình còn lại đối xứng hơn vì một giả định trong hồi quy cổ điển là rằng các lỗi là Gaussian. Điều này hàm ý mức độ nghiêm ngặt và nghiêm ngặt sâu sắc hơn là chỉ đối xứng với một tệp PDF.

Hơn nữa, cả hai trích dẫn đều yếu ở chỗ không ai đi sâu vào động lực cho đơn thuốc của họ (ít nhất là dựa trên thông tin được cung cấp). Khi nó xảy ra, tôi không đồng ý với cả hai.

Trong đoạn văn bạn đã nhấn mạnh, sách SPSS tuyên bố rằng các hỗn hợp biến đổi (ví dụ: nhật ký tự nhiên cho một biến, căn bậc hai cho biến khác) không được phép. Tại sao điều này là bất hợp pháp? Hỗn hợp biến đổi vi phạm không có giả định hồi quy mà tôi biết. Vui lòng kiểm tra bất kỳ văn bản hồi quy nào về các giả định hồi quy để xác nhận rằng đây là trường hợp. Hỗn hợp biến đổi có thể đưa ra một vấn đề mô tả thực chất theo cách giải thích của chúng, nhưng đó không phải là câu hỏi liệu hỗn hợp có bất hợp pháp hay không. Anh chàng SPSS đã sai.

Theo như văn bản thứ hai, một lần nữa, các phép biến đổi hoàn toàn là vấn đề lựa chọn của nhà phân tích - cho dù một người có thực hiện chúng hay không, biến đổi tất cả các đầu vào hoặc một số biến chứ không phải các biến khác. Không ai trong số này vi phạm bất kỳ giả định nào.

Trường hợp tôi nghĩ rằng trích dẫn thứ hai đi ra khỏi đường ray là trong lời khẳng định rằng, "... để tránh sự đa hình tiềm năng ... chỉ có một chỉ số sử dụng đất (đã được sử dụng) ..." Đây là lời khuyên và âm thanh tồi tệ như Một số điều mà một số nhà phân tích sẽ làm như một kỹ thuật giảm kích thước, trong đó họ sẽ phân tích một loạt các biến và chọn biến tải cao nhất trên mỗi yếu tố. Heuristic này đã tồn tại trong nhiều năm và không phải là một trong những tôi sử dụng hoặc đề nghị. Một lần nữa, đây là một vấn đề ưu tiên phân tích và đào tạo. Nhưng điểm này không nhằm mục đích trả lời các câu hỏi cụ thể của bạn.

Vào cuối ngày, cả hai trích dẫn được đưa ra như là sự khẳng định ý kiến ​​của các tác giả trong trường hợp không có bất kỳ bằng chứng hỗ trợ nào, dựa trên thông tin được cung cấp.


8
Chúng tôi đưa ra những điểm tương tự nhau, nhưng tôi muốn thêm rằng các văn bản tốt giải thích rằng các lỗi Gaussian là giả định ít quan trọng nhất trong mô hình hồi quy và không cần thiết cho nhiều mục đích.
Nick Cox

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.