Bình thường hóa so với tỷ lệ


45

Sự khác biệt giữa dữ liệu 'Chuẩn hóa' và dữ liệu 'Thu nhỏ' là gì? Cho đến bây giờ tôi nghĩ cả hai thuật ngữ đều đề cập đến cùng một quy trình nhưng bây giờ tôi nhận ra có một điều gì đó nữa mà tôi không biết / không hiểu. Ngoài ra nếu có sự khác biệt giữa Chuẩn hóa và Chia tỷ lệ, khi nào chúng ta nên sử dụng Chuẩn hóa nhưng không phải Thu nhỏ và ngược lại?

Xin hãy giải thích với một số ví dụ.


6
Bình thường hóa có nghĩa là chuyển đổi các quan sát của bạn x thành f(x) (trong đó f là một hàm có thể đo lường được, thường là liên tục) sao cho chúng trông phân phối bình thường . Một số ví dụ về các phép biến đổi để chuẩn hóa dữ liệu là các phép biến đổi công suất . Chia tỷ lệ đơn giản có nghĩa là f(x)=cx , cR , đây là, nhân các quan sát của bạn với một hằng số c làm thay đổi thang đo (ví dụ từ nanomet sang km) .


chuẩn hóa cũng là một phương pháp chia tỷ lệ, giống như tiêu chuẩn hóa

Tôi không có đủ danh tiếng về số liệu thống kê để trả lời. Tôi nghĩ tiêu đề của câu hỏi của bạn nên là Chuẩn hóa so với Tiêu chuẩn hóa, vì hai cách này là cách tiếp cận khác nhau của việc thay đổi kích thước. Chuẩn hóa là định cỡ lại các giá trị thành phạm vi 0 và 1 trong khi tiêu chuẩn hóa đang chuyển phân phối thành 0 là trung bình và 1 là độ lệch chuẩn.
Hamid Heydarian

Câu trả lời:


23

Tôi không biết định nghĩa "chính thức" và thậm chí nếu có, bạn không nên tin vào nó vì bạn sẽ thấy nó được sử dụng không nhất quán trong thực tế.

Điều này đang được nói, nhân rộng trong thống kê thường có nghĩa là một phép biến đổi tuyến tính có dạng f(x)=ax+b .

Bình thường hóa có thể có nghĩa là áp dụng một phép biến đổi để dữ liệu được chuyển đổi của bạn được phân phối gần như bình thường, nhưng nó cũng có thể chỉ đơn giản là đặt các biến khác nhau trên một thang đo chung. Tiêu chuẩn hóa, có nghĩa là trừ trung bình và chia cho độ lệch chuẩn, là một ví dụ về việc sử dụng sau này. Như bạn có thể thấy đó cũng là một ví dụ về nhân rộng. Một ví dụ cho lần đầu tiên là lấy nhật ký cho dữ liệu phân tán lognatural.

Nhưng những gì bạn nên bỏ đi là khi bạn đọc nó, bạn nên tìm kiếm một mô tả chính xác hơn về những gì tác giả đã làm. Đôi khi bạn có thể lấy nó từ bối cảnh.


14

Chia tỷ lệ là một lựa chọn cá nhân về việc làm cho các con số cảm thấy đúng, ví dụ giữa 0 và một, hoặc một và một trăm. Ví dụ: chuyển đổi dữ liệu được cung cấp theo milimet sang mét vì nó thuận tiện hơn hoặc cấp bách hơn theo hệ mét.

Mặc dù chuẩn hóa là về việc chia tỷ lệ theo 'tiêu chuẩn' bên ngoài - chỉ tiêu cục bộ - chẳng hạn như loại bỏ giá trị trung bình và chia cho độ lệch chuẩn mẫu, ví dụ để dữ liệu được sắp xếp của bạn có thể được so sánh với bình thường giả, hoặc Poisson giả, hoặc bất cứ điều gì.

Vì vậy, nếu một giảng viên hoặc người quản lý muốn dữ liệu 'bình thường hóa', điều đó có nghĩa là "mở rộng quy mô theo cách của tôi " ;-)


9

Tôi không biết nếu bạn có ý nghĩa chính xác điều này, nhưng tôi thấy rất nhiều người đề cập đến Chuẩn hóa dữ liệu có nghĩa là Chuẩn hóa dữ liệu. Tiêu chuẩn hóa đang chuyển đổi dữ liệu của bạn để nó có nghĩa là 0 và độ lệch chuẩn 1:

x <- (x - mean(x)) / sd(x)

Tôi cũng thấy mọi người sử dụng thuật ngữ Chuẩn hóa dữ liệu để nhân rộng dữ liệu, như khi chuyển đổi dữ liệu của bạn thành phạm vi 0-1:

x <- (x - min(x)) / (max(x) - min(x))

Nó có thể gây nhầm lẫn!

Cả hai kỹ thuật đều có ưu và nhược điểm của chúng. Khi nhân rộng một tập dữ liệu có quá nhiều ngoại lệ, dữ liệu không phải là ngoại lệ của bạn có thể kết thúc trong một khoảng rất nhỏ. Vì vậy, nếu tập dữ liệu của bạn có quá nhiều ngoại lệ, bạn có thể muốn xem xét Chuẩn hóa nó. Tuy nhiên, khi bạn làm điều đó, bạn sẽ kết thúc với dữ liệu âm (đôi khi bạn không muốn điều đó) và dữ liệu không bị ràng buộc (bạn cũng có thể không muốn điều đó).


3

Định tâm có nghĩa là thay thế giá trị trung bình của biến ngẫu nhiên từ các biến. Tức là x -xi

Mở rộng có nghĩa là chia biến cho độ lệch chuẩn của nó. Tức là xi / s

Kết hợp cả hai được gọi là chuẩn hóa hoặc đứng. Tức là x-xi / s


Câu hỏi là một bản sao.
Michael Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.