Các biến thường được điều chỉnh (ví dụ như được tiêu chuẩn hóa) trước khi tạo một mô hình - khi nào thì đây là một ý tưởng tốt và khi nào nó là một ý tưởng tồi?


56

Trong trường hợp nào bạn muốn, hoặc không muốn mở rộng hoặc chuẩn hóa một biến trước khi điều chỉnh mô hình? Và những lợi thế / bất lợi của việc nhân rộng một biến là gì?


Câu hỏi rất giống nhau ở đây: stats.stackexchange.com/q/7112/3748 bạn còn tìm kiếm gì nữa không?
Michael Giám mục

Có - Tôi muốn biết về các mô hình nói chung thay vì chỉ mô hình tuyến tính
Andrew

1
Có rất nhiều mô hình có thể, và có thể sử dụng các mô hình. Nếu bạn có thể làm cho câu hỏi của bạn cụ thể hơn và giảm chồng chéo với các câu hỏi khác thì tốt hơn.
Michael Giám mục

Câu trả lời:


37

Tiêu chuẩn hóa là tất cả về trọng lượng của các biến khác nhau cho mô hình. Nếu bạn thực hiện tiêu chuẩn hóa "chỉ" vì mục đích ổn định số, có thể có các phép biến đổi mang lại các tính chất số rất giống nhau nhưng ý nghĩa vật lý khác nhau có thể phù hợp hơn cho việc giải thích. Điều tương tự cũng đúng đối với định tâm, thường là một phần của tiêu chuẩn hóa.

Các tình huống mà bạn có thể muốn tiêu chuẩn hóa:

  • các biến là đại lượng vật lý khác nhau
  • và các giá trị số nằm trên các thang độ lớn khác nhau
  • và không có kiến ​​thức "bên ngoài" rằng các biến có biến thiên (số) cao nên được coi là quan trọng hơn.

Các tình huống mà bạn có thể không muốn tiêu chuẩn hóa:

  • nếu các biến có cùng đại lượng vật lý và (khoảng) có cùng độ lớn, vd
    • nồng độ tương đối của các loài hóa học khác nhau
    • độ hấp thụ ở các bước sóng khác nhau
    • cường độ phát xạ (nếu không cùng điều kiện đo) ở các bước sóng khác nhau
  • bạn chắc chắn không muốn tiêu chuẩn hóa các biến không thay đổi giữa các mẫu (các kênh cơ sở) - thay vào đó, bạn sẽ làm giảm tiếng ồn đo (thay vào đó bạn có thể muốn loại trừ chúng khỏi mô hình)
  • nếu bạn có các biến liên quan đến vật lý như vậy, nhiễu đo lường của bạn có thể gần giống nhau cho tất cả các biến, nhưng cường độ tín hiệu thay đổi nhiều hơn. Các biến có giá trị thấp có độ ồn tương đối cao hơn. Tiêu chuẩn hóa sẽ thổi lên tiếng ồn. Nói cách khác, bạn có thể phải quyết định xem bạn muốn tiếng ồn tương đối hay tuyệt đối được chuẩn hóa.
  • Có thể có các giá trị có ý nghĩa vật lý mà bạn có thể sử dụng để liên kết giá trị đo được của mình với, ví dụ thay vì cường độ truyền sử dụng phần trăm của cường độ truyền (độ truyền T).

Bạn có thể làm một cái gì đó "ở giữa" và biến đổi các biến hoặc chọn đơn vị sao cho các biến mới vẫn có ý nghĩa vật lý nhưng sự thay đổi trong giá trị số không khác nhau, ví dụ:

  • nếu bạn làm việc với chuột, hãy sử dụng trọng lượng cơ thể g và chiều dài tính bằng cm (phạm vi biến đổi dự kiến ​​khoảng 5 cho cả hai) thay vì đơn vị cơ sở kg và m (phạm vi biến thiên dự kiến ​​0,005 kg và 0,05 m - một độ lớn khác nhau).
  • đối với độ truyền T ở trên, bạn có thể cân nhắc sử dụng độ hấp thụA=log10T

Tương tự cho định tâm:

  • Có thể có các giá trị cơ bản có ý nghĩa (về mặt vật lý / hóa học / sinh học / ...) (ví dụ: điều khiển, rèm, v.v.)
  • Là ý nghĩa thực sự có ý nghĩa? (Người trung bình có một buồng trứng và một tinh hoàn)

+1 và được chấp nhận vì danh sách hữu ích khi nào và khi nào không quá chuẩn, cảm ơn
Andrew

6
+1 cho "Người trung bình có một buồng trứng và một tinh hoàn" (& cũng cho phần còn lại của câu trả lời ;-).
gung - Phục hồi Monica

1
@cbeleites có bất kỳ cơ hội nào bạn có thể cung cấp liên kết đến tài nguyên giải thích các kênh cơ sở trong ngữ cảnh bạn đã sử dụng trong câu trả lời của mình không? Tôi chưa từng nghe thuật ngữ này trước đây và tôi nhận được kết quả tìm kiếm không hữu ích trong việc hiểu cách sử dụng thuật ngữ của bạn ở đây. Cảm ơn!
mahonya

1
@sarikan: có một cái nhìn vào con số. 1 trong bài viết này: Americanlaboratory.com/913-T kỹ thuật -Nghệ thuật / vì lý do sinh học và hóa lý, trong phạm vi từ 2000 đến 2700 cm không có tín hiệu nào được mong đợi. Vùng này có thể được sử dụng để ước tính đường cơ sở (từ các hiệu ứng vật lý không phải là Raman) sau đó bị trừ đi. Những thay đổi này sau đó sẽ xấp xỉ bằng 0 cộng với một số nhiễu. 1
cbeleites hỗ trợ Monica

9

Một điều tôi luôn tự hỏi mình trước khi tiêu chuẩn hóa là "Tôi sẽ diễn giải đầu ra như thế nào?" Nếu có một cách để phân tích dữ liệu mà không cần chuyển đổi, điều này hoàn toàn có thể được ưu tiên hoàn toàn từ quan điểm giải thích.


7

Nói chung, tôi không khuyên bạn nên mở rộng quy mô hoặc tiêu chuẩn hóa trừ khi thực sự cần thiết. Ưu điểm hay sức hấp dẫn của quá trình này là, khi một biến giải thích có kích thước và độ lớn vật lý hoàn toàn khác với biến phản ứng, việc chia tỷ lệ qua phân chia theo độ lệch chuẩn có thể giúp về độ ổn định số và cho phép người ta so sánh các hiệu ứng trên nhiều biến giải thích. Với tiêu chuẩn hóa phổ biến nhất, hiệu ứng biến là lượng thay đổi của biến trả lời khi biến giải thích tăng thêm một độ lệch chuẩn; nó cũng chỉ ra rằng ý nghĩa của hiệu ứng biến (lượng thay đổi của biến trả lời khi biến giải thích tăng thêm một đơn vị) sẽ bị mất mặc dù giá trị thống kê cho biến giải thích không thay đổi. Tuy nhiên, khi sự tương tác được xem xét trong một mô hình, việc chia tỷ lệ có thể rất khó khăn ngay cả đối với kiểm tra thống kê vì một biến chứng liên quan đến điều chỉnh tỷ lệ ngẫu nhiên trong việc tính toán sai số chuẩn của hiệu ứng tương tác (Preacher, 2003). Vì lý do này, tỷ lệ theo độ lệch chuẩn (hoặc tiêu chuẩn hóa / chuẩn hóa) thường không được khuyến nghị, đặc biệt là khi có tương tác.

Preacher, KJ, Curran, PJ, và Bauer, DJ, 2006. Các công cụ tính toán để thăm dò hiệu ứng tương tác trong hồi quy tuyến tính đa, mô hình đa cấp và phân tích đường cong tiềm ẩn. Tạp chí Thống kê Giáo dục và Hành vi, 31 (4), 437-448.


4
Tôi nghi ngờ tuyên bố của bạn rằng các tiêu chuẩn dự đoán là "thường không được khuyến khích, đặc biệt là khi có tương tác." Cả Gelman và Hill, Raudenbush & Bryk đều không đề cập đến mối quan tâm này trong các văn bản của họ. Nhưng khi có cơ hội tôi sẽ xem xét các tài liệu tham khảo mà bạn đề cập với sự quan tâm.
Michael Giám mục

Nếu chúng ta sử dụng std vũ trụ hiệu chuẩn làm biến tỷ lệ, thì tỷ lệ không phải là ngẫu nhiên.
adam

Ai đó có thể xác nhận nếu mở rộng quy mô có hại trong trường hợp các điều khoản tương tác? Điều đó dường như không được giải quyết trong các cuộc thảo luận ở trên.
Talik3233
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.