Những phép biến đổi chuẩn hóa nào khác thường được sử dụng ngoài các phép biến đổi phổ biến như căn bậc hai, log, v.v.?


10

Trong phân tích điểm kiểm tra (ví dụ, trong Giáo dục hoặc Tâm lý học), các kỹ thuật phân tích phổ biến thường cho rằng dữ liệu được phân phối bình thường. Tuy nhiên, có lẽ thường xuyên hơn không, điểm số có xu hướng lệch đôi khi dữ dội so với bình thường.

Tôi quen thuộc với một số biến đổi chuẩn hóa cơ bản, như: căn bậc hai, logarit, biến đổi đối ứng để giảm độ lệch dương, các phiên bản phản ánh của phần trên để giảm độ lệch âm, bình phương cho phân phối leptokurtic. Tôi đã nghe nói về biến đổi arcsine và biến đổi sức mạnh, mặc dù tôi không thực sự hiểu biết về chúng.

Vì vậy, tôi tò mò về những biến đổi khác thường được sử dụng bởi các nhà phân tích?

Câu trả lời:


5

Các Box-Cox chuyển đổi bao gồm nhiều những người bạn trích dẫn. Xem câu trả lời này để biết một số chi tiết:

CẬP NHẬT: Những slide này cung cấp một cái nhìn tổng quan khá tốt về các phép biến đổi Box-Cox.


Nếu chúng tôi áp dụng các công cụ t cho dữ liệu được chuyển đổi Box-Cox, chúng tôi sẽ suy luận về sự khác biệt về phương tiện của dữ liệu được chuyển đổi. Làm thế nào chúng ta có thể giải thích những người trên thang đo ban đầu? (Giá trị trung bình của các giá trị được chuyển đổi không phải là giá trị trung bình được chuyển đổi). Nói cách khác (nếu tôi đúng), lấy biến đổi nghịch đảo của ước tính giá trị trung bình, trên thang đo được chuyển đổi, không đưa ra ước tính về giá trị trung bình trên thang đo ban đầu.
George Dontas

@ gd047, một số thử nghiệm giả định tính bình thường của phân phối giá trị trung bình, không phải dữ liệu. kiểm tra t có xu hướng khá mạnh mẽ để dữ liệu cơ bản. Mặc dù bạn đã đúng - với các thử nghiệm sau chuyển đổi, kết quả được báo cáo sau khi chuyển đổi ngược lại và việc giải thích có thể rất khó khăn. Nó liên quan đến việc dữ liệu của bạn "không bình thường" như thế nào, bạn có thể thoát khỏi mà không cần chuyển đổi hoặc áp dụng, giả sử, một biến đổi nhật ký dễ diễn giải hơn. Mặt khác, đó là bối cảnh trên sự chuyển đổi và miền thực tế và tôi thực sự không có câu trả lời hay. Có thể đáng để xem những gì người khác nói?
ars

10

Bước đầu tiênhỏi tại sao các biến của bạn không được phân phối bình thường. Điều này có thể được chiếu sáng. Những phát hiện phổ biến từ kinh nghiệm của tôi:

  • Các bài kiểm tra khả năng (ví dụ: bài kiểm tra, bài kiểm tra trí thông minh, bài kiểm tra nhập học) có xu hướng bị sai lệch khi có hiệu ứng trần và bị lệch dương khi có hiệu ứng sàn. Cả hai phát hiện cho thấy mức độ khó của bài kiểm tra không được tối ưu hóa cho mẫu, quá dễ hoặc quá khó để phân biệt tối ưu khả năng. Nó cũng ngụ ý rằng biến quan tâm tiềm ẩn vẫn có thể được phân phối bình thường, nhưng cấu trúc của thử nghiệm đang tạo ra một độ lệch trong biến đo được đo.
  • Các bài kiểm tra khả năng thường có các ngoại lệ về điểm thấp. Nói tóm lại, có nhiều cách để làm bài kiểm tra kém. Đặc biệt, điều này đôi khi có thể được nhìn thấy trong các kỳ thi, nơi có một tỷ lệ nhỏ học sinh trong đó một số kết hợp thiếu năng khiếu và thiếu nỗ lực đã kết hợp để tạo ra điểm kiểm tra rất thấp. Điều này ngụ ý rằng biến quan tâm tiềm ẩn có thể có một vài ngoại lệ.
  • Liên quan đến các bài kiểm tra tự báo cáo (ví dụ: kiểm tra tính cách, kiểm tra thái độ, v.v.) thường xảy ra khi mẫu thử vốn cao trên thang đo (ví dụ: phân phối sự hài lòng của cuộc sống bị lệch vì hầu hết mọi người đều hài lòng) hoặc khi thang đo đã được tối ưu hóa cho một mẫu khác với mẫu mà xét nghiệm đang được áp dụng (ví dụ: áp dụng biện pháp trầm cảm lâm sàng cho mẫu không lâm sàng).

Bước đầu tiên này có thể đề nghị sửa đổi thiết kế để thử nghiệm. Nếu bạn nhận thức được những vấn đề này trước thời hạn, bạn thậm chí có thể thiết kế thử nghiệm của mình để tránh chúng, nếu bạn thấy chúng có vấn đề.

Bước thứ haiquyết định phải làm gì trong tình huống bạn có dữ liệu không bình thường. Lưu ý chuyển đổi là nhưng một chiến lược có thể. Tôi muốn nhắc lại lời khuyên chung từ một câu trả lời trước đó về tính phi quy tắc :

  • Nhiều thủ tục giả định tính bình thường của phần dư là mạnh mẽ để vi phạm khiêm tốn tính bình thường của phần dư
  • Bootstrapping nói chung là một chiến lược tốt
  • Biến đổi là một chiến lược tốt khác. Lưu ý rằng theo kinh nghiệm của tôi, các loại xiên nhẹ thường xảy ra với các bài kiểm tra tâm lý tự báo cáo về khả năng và tự báo cáo thường có thể được chuyển đổi khá dễ dàng thành một quy tắc xấp xỉ phân phối bằng cách sử dụng một bản ghi, sqrt hoặc biến đổi ngược (hoặc tương đương ngược).

9

John Tukey thảo luận một cách có hệ thống các biến đổi trong cuốn sách của ông về EDA. Ngoài gia đình Box-Cox (biến đổi công suất theo tỷ lệ), ông còn định nghĩa một họ biến đổi "gấp" theo tỷ lệ (về cơ bản là sức mạnh của x / (1-x)) và "bắt đầu" (thêm phần bù dương vào dữ liệu được tính trước khi biến đổi chúng). Các phép biến đổi gấp, về cơ bản là khái quát hóa logit, đặc biệt hữu ích cho điểm kiểm tra.

Theo một hướng hoàn toàn khác, Johnson & Kotz trong các cuốn sách về phân phối của họ đưa ra nhiều biến đổi nhằm chuyển đổi số liệu thống kê kiểm tra thành tính chuẩn gần đúng (hoặc cho một số phân phối mục tiêu khác), chẳng hạn như chuyển đổi căn bậc ba cho bình phương. Tài liệu này là một nguồn ý tưởng tuyệt vời cho các chuyển đổi hữu ích khi bạn dự đoán dữ liệu của mình sẽ tuân theo một số phân phối cụ thể.


2

Một lựa chọn đơn giản là sử dụng tổng số điểm thay vì bản thân điểm số. Tổng phân phối có xu hướng bình thường. Ví dụ: trong Giáo dục, bạn có thể thêm điểm của học sinh qua một loạt bài kiểm tra.

Tất nhiên, một lựa chọn khác là sử dụng các kỹ thuật không giả định tính quy tắc, được đánh giá thấp và không được sử dụng đúng mức.


1
Tôi tin rằng các khoản tiền cần phải được chuẩn hóa (ví dụ: sử dụng điểm trung bình) cho phân phối để có xu hướng bình thường.

1
Vâng, đó là chính xác. Trong ví dụ của tôi, tôi cho rằng các lớp học sẽ có cùng số lượng sinh viên, điều này không thực tế. Cảm ơn bạn.
Carlos Accioly

1

XFY LambertW×F

XN(μ,σ2)θ=(μx,σx,δ,α)α1

Bây giờ khi chuyển đổi dữ liệu, điều này trở nên thú vị vì phép biến đổi là tính từ (gần như là tính từ cho trường hợp sai lệch) và có thể thu được một cách rõ ràng bằng cách sử dụng hàm W của Lambert (do đó có tên Lambert W x F). Điều này có nghĩa là chúng ta có thể loại bỏ độ lệch khỏi dữ liệu và cũng có thể loại bỏ các đuôi nặng (về mặt sinh học!).

Bạn có thể dùng thử gói LambertW R, với hướng dẫn sử dụng hiển thị nhiều ví dụ về cách sử dụng gói này.

Đối với các ứng dụng xem các bài viết này

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.