Lý do đằng sau tiêu chuẩn hóa (chia cho độ lệch chuẩn) là gì?


8

Tại sao chia một tập dữ liệu bằng sigma làm phương sai mẫu bằng 1? Giả sử không có nghĩa là đơn giản.

Trực giác đằng sau này là gì?

Chia theo phạm vi (tối đa) có ý nghĩa trực quan. Nhưng độ lệch chuẩn thì không.


1
Giả định không có nghĩa là không cần thiết. Bạn có thể coi đây là ba câu lệnh riêng biệt: chia cho SD cho SD là 1; phương sai là bình phương của SD; và hình vuông của 1 là 1.
Nick Cox

1
Khi mọi người nói trực quan, tôi dịch nó là "quen thuộc với tôi" và hầu hết thời gian nó phù hợp. Lý do không phân chia theo phạm vi là thực tế hơn là lý thuyết. Phạm vi có thể rất bền. Ngoài ra, thường thì phạm vi của tất cả các giá trị lớn hơn rất nhiều so với phần lớn các giá trị, vì vậy kết quả sẽ không hữu ích. Thu nhập minh họa cả hai điểm: mức tối đa quan sát được có thể thay đổi một cách thất thường và các giá trị chia cho phạm vi thường sẽ được tập trung gần 0.
Nick Cox

Câu trả lời:


17

Điều này bắt nguồn từ tài sản của phương sai. Đối với một biến ngẫu nhiênX và một hằng số một, vmộtr(mộtX)= =một2vmộtr(x). Do đó, nếu bạn chia dữ liệu theo độ lệch chuẩn của nó (σ), vmộtr(X/σ)= =vmộtr(X)/σ2= =σ2/σ2= =1.


1
giúp, cảm ơn. Bạn có một cách tiếp cận trực quan?
luôn luôn là

8

Tiêu chuẩn hóa chỉ là thay đổi các đơn vị để chúng ở trong các đơn vị "độ lệch chuẩn". Sau khi tiêu chuẩn hóa, giá trị 1,5 có nghĩa là "1,5 độ lệch chuẩn trên 0". Nếu độ lệch chuẩn là 8, điều này sẽ tương đương với việc nói "12 điểm trên 0".

Một ví dụ: khi chuyển đổi inch sang feet (ở Mỹ), bạn nhân dữ liệu của mình theo inch với hệ số chuyển đổi, 1foot12TôincheS, xuất phát từ thực tế là 1 feet bằng 12 inch, vì vậy về cơ bản, bạn chỉ cần nhân các điểm dữ liệu của mình với một phiên bản 1 ưa thích (nghĩa là một phân số có tử số và mẫu số bằng nhau). Ví dụ, để đi từ 72 inch đến feet, bạn làm72TôincheS×1foot12TôincheS= =6feet.

Khi chuyển đổi điểm từ các đơn vị liệu cho các đơn vị độ lệch chuẩn, bạn nhân với dữ liệu của bạn trong các đơn vị nguyên bởi các yếu tố chuyển đổi 1SdσpoTôintS. Vì vậy, nếu bạn có điểm 100 và độ lệch chuẩn (σ) Là 20, điểm chuẩn của bạn sẽ được 100poTôintS×1Sd20poTôintS= =5Sd. Tiêu chuẩn hóa chỉ là thay đổi các đơn vị.

Thay đổi đơn vị của bộ dữ liệu không ảnh hưởng đến mức độ lan truyền của nó; bạn chỉ cần thay đổi đơn vị đo lường mức độ lây lan mà bạn đang sử dụng để chúng phù hợp. Vì vậy, nếu dữ liệu gốc của bạn có độ lệch chuẩn là 20 điểm và bạn đã thay đổi đơn vị sao cho 20 điểm ban đầu bằng 1 đơn vị được tiêu chuẩn hóa mới, thì độ lệch chuẩn mới là 1 đơn vị (vì 20 đơn vị ban đầu bằng 1 đơn vị mới).


2
Một số câu trả lời của bạn cần một giả định thêm rằng bạn đã trừ giá trị trung bình, nhưng bạn không đề cập đó. Các câu hỏi chủ đề là không rõ ràng ở đây cũng vậy, như trong thống kê đã trừ giá trị trung bình là mặc định, nhưng nó yêu cầu chỉ khoảng chia cho SD.
Nick Cox

Tôi không nghĩ rằng câu trả lời của tôi yêu cầu giả định đó nếu chúng ta xác định tiêu chuẩn hóa chỉ là chia cho SD (mà OP thực hiện). Tôi chỉ nói về việc thay đổi đơn vị, không liên quan đến trung tâm dữ liệu. Ví dụ: đối với thang điểm có giá trị trung bình là 50 và SD là 10, tôi đang nói điểm 20 sẽ có điểm chuẩn là 2, không phải -3. Trừ trung bình (định tâm) là một vấn đề riêng biệt.

Điểm công bằng. Tôi không nghĩ việc xác định tiêu chuẩn hóa chỉ đơn thuần là chia cho SD là hoàn toàn tiêu chuẩn, có thể nói, nhưng việc đưa ra định nghĩa của bạn về giá trị / SD=:z, Nói, sau đó tất cả các điểm dữ liệu mà là tích cực sau đó được trên 0 trên chuẩn z tỷ lệ và chỉ các điểm xảy ra âm là dưới 0 trên ztỉ lệ. Cho dù đó là một tiêu chuẩn hữu ích như (giá trị-có nghĩa là) / SD là mở cho câu hỏi.
Nick Cox

OP đề cập đến câu hỏi về giả định có nghĩa là bằng không
Soroush
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.