Sự khác biệt giữa Chuẩn hóa và Tiêu chuẩn hóa là gì?


118

Trong công việc, chúng tôi đã thảo luận về điều này vì ông chủ của tôi chưa bao giờ nghe nói về bình thường hóa. Trong Đại số tuyến tính, Chuẩn hóa dường như đề cập đến việc chia một vectơ cho chiều dài của nó. Và trong thống kê, Tiêu chuẩn hóa dường như đề cập đến phép trừ của một giá trị trung bình sau đó chia cho SD của nó. Nhưng chúng dường như có thể hoán đổi với các khả năng khác.

Khi tạo một số loại điểm phổ quát, tạo thành số liệu khác nhau, có các phương tiện khác nhau và SD khác nhau, bạn sẽ Chuẩn hóa, Chuẩn hóa hoặc một cái gì khác? Một người nói với tôi rằng đó chỉ là vấn đề lấy từng số liệu và chia chúng cho SD của họ, riêng lẻ. Sau đó tổng kết hai. Và điều đó sẽ dẫn đến một điểm số phổ quát có thể được sử dụng để đánh giá cả hai số liệu.2

Chẳng hạn, giả sử bạn có số người đi tàu điện ngầm đi làm (ở NYC) và số người lái xe đi làm (ở NYC).

Xe y

Trainx
Cary

mean(x)mean(y)

mean(x)=8,000,000

mean(y)=800,000

xyxy

Bất kỳ bài viết hoặc chương sách để tham khảo sẽ được nhiều đánh giá cao. CẢM ƠN!

Ngoài ra đây là một ví dụ khác về những gì tôi đang cố gắng làm.

Hãy tưởng tượng bạn là trưởng khoa đại học và bạn đang thảo luận về yêu cầu nhập học. Bạn có thể muốn sinh viên có ít nhất một điểm trung bình nhất định và điểm kiểm tra nhất định. Sẽ thật tuyệt nếu cả hai đều ở cùng một tỷ lệ vì sau đó bạn chỉ cần thêm hai cái lại với nhau và nói, "bất cứ ai có ít nhất 7.0 đều có thể được nhận." Theo cách đó, nếu một sinh viên tương lai có điểm trung bình 4.0, họ có thể đạt điểm kiểm tra 3.0 thấp và vẫn được nhận. Ngược lại, nếu ai đó có GPA 3.0, họ vẫn có thể được nhận với điểm kiểm tra 4.0.

Nhưng nó không phải như thế. ACT đạt thang điểm 36 và hầu hết các điểm trung bình đều trên 4.0 (một số là 4.3, có gây phiền nhiễu). Vì tôi không thể thêm ACT và GPA để có được một số điểm phổ quát, làm thế nào tôi có thể biến đổi chúng để có thể thêm chúng, do đó tạo ra điểm số nhập học phổ quát. Và sau đó là một Hiệu trưởng, tôi có thể tự động chấp nhận bất cứ ai có điểm trên một ngưỡng nhất định. Hoặc thậm chí tự động chấp nhận tất cả mọi người có điểm nằm trong top 95% .... những thứ đó.

Đó sẽ là bình thường hóa? Tiêu chuẩn hóa? hoặc chỉ chia mỗi SD cho họ sau đó tổng hợp?


4
Phần cuối của câu hỏi có vẻ như bạn đang cố gắng tạo ra một định giá trong số nhiều thuộc tính. Để biết thêm về điều đó, hãy xem câu hỏi và trả lời tại stats.stackexchange.com/q/9137stats.stackexchange.com/q/9353 . Đặc biệt, lưu ý rằng cả chuẩn hóa và tiêu chuẩn hóa đều không liên quan trực tiếp đến vấn đề của Trưởng khoa.
whuber

Câu trả lời:


65

Chuẩn hóa sẽ hủy các giá trị thành một phạm vi [0,1]. Điều này có thể hữu ích trong một số trường hợp tất cả các tham số cần phải có cùng thang đo dương. Tuy nhiên, các ngoại lệ từ bộ dữ liệu bị mất.

Xchanged=XXminXmaxXmin

μσ

Xchanged=Xμσ

Đối với hầu hết các ứng dụng tiêu chuẩn được khuyến khích.


7
Bạn có thể giải thích tại sao "các ngoại lệ từ tập dữ liệu bị mất" khi chuẩn hóa dữ liệu không?
người học

3
ngoại lệ trong trường hợp mở rộng lại này sẽ ảnh hưởng đến kết quả và không bị mất.
Feras

@learner Hãy tưởng tượng nếu bạn có [1 2 3 4 5 1000 2 4 5 2000 ...]. Giá trị chuẩn hóa của 1000 datapoint sẽ trở nên nhỏ hơn bởi vì chúng ta có 2000
CẮT ICE

3
@COLDICE Tôi nghĩ nó phụ thuộc vào thuật toán chuẩn hóa mà bạn sử dụng. Chẳng hạn, nếu bạn chia mỗi số trong tập dữ liệu của mình cho giá trị tối đa (ví dụ 2000), chúng sẽ nằm trong khoảng từ 0 đến 1 và nó sẽ không ảnh hưởng đến các ngoại lệ.
Alisson

3
Tôi nghĩ rằng điều này hoàn toàn không ảnh hưởng đến các ngoại lệ, nếu không điều này sẽ không được thực hiện trong các phần mềm phát hiện bất thường.
Alisson

44

Trong thế giới kinh doanh, "bình thường hóa" thường có nghĩa là phạm vi của các giá trị được "chuẩn hóa thành từ 0,0 đến 1". "Tiêu chuẩn hóa" thường có nghĩa là phạm vi của các giá trị được "tiêu chuẩn hóa" để đo xem có bao nhiêu độ lệch chuẩn so với giá trị trung bình của nó. Tuy nhiên, không phải ai cũng đồng ý với điều đó. Tốt nhất là giải thích định nghĩa của bạn trước khi bạn sử dụng chúng.

Trong mọi trường hợp, chuyển đổi của bạn cần phải cung cấp một cái gì đó hữu ích.

Trong ví dụ về xe lửa / xe hơi của bạn, bạn có đạt được bất cứ điều gì khi biết có bao nhiêu độ lệch chuẩn so với giá trị trung bình của chúng, mỗi giá trị nằm không? Nếu bạn vẽ các biện pháp "tiêu chuẩn hóa" này với nhau như một âm mưu xy, bạn có thể thấy một mối tương quan (xem biểu đồ đầu tiên bên phải):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Nếu vậy, điều đó có ý nghĩa gì với bạn?

Theo như ví dụ thứ hai của bạn, nếu bạn muốn "đánh đồng" GPA từ thang đo này sang thang đo khác, những thang đo này có điểm gì chung? Nói cách khác, làm thế nào bạn có thể biến đổi các mức tối thiểu đó thành tương đương và mức tối đa tương đương?

Đây là một ví dụ về "bình thường hóa":

Liên kết chuẩn hóa

Khi bạn nhận được điểm GPA và ACT ở dạng có thể hoán đổi cho nhau, việc cân nhắc điểm ACT và GPA khác nhau có hợp lý không? Nếu vậy, trọng số có ý nghĩa gì với bạn?

Chỉnh sửa 1 (05/03/2011) ========================================= = =

Đầu tiên, tôi sẽ kiểm tra các liên kết được đề xuất bởi whuber ở trên. Điểm mấu chốt là, trong cả hai vấn đề hai biến của bạn, bạn sẽ phải đưa ra "sự tương đương" của một biến so với biến khác. Và, một cách để phân biệt một biến này với biến khác. Nói cách khác, ngay cả khi bạn có thể đơn giản hóa điều này thành một mối quan hệ tuyến tính đơn giản, bạn sẽ cần "trọng số" để phân biệt một biến này với biến khác.

Đây là một ví dụ về một vấn đề hai biến:

Tiện ích đa thuộc tính

Từ trang cuối cùng, nếu bạn có thể nói rằng lưu lượng xe lửa được tiêu chuẩn hóa U1(x)so với lưu lượng xe được tiêu chuẩn hóa U2(y)là "độc lập phụ thuộc", thì bạn có thể thoát khỏi một phương trình đơn giản như:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Trong đó k1 = 0,5 có nghĩa là bạn thờ ơ với lưu lượng xe / xe lửa được tiêu chuẩn hóa. K1 cao hơn có nghĩa là lưu lượng xe lửa U1(x)quan trọng hơn.

Tuy nhiên, nếu hai biến này không "độc lập cộng", thì bạn sẽ phải sử dụng một phương trình phức tạp hơn. Một khả năng được hiển thị trên trang 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

Trong cả hai trường hợp, bạn sẽ phải đưa ra một tiện ích U(x, y)có ý nghĩa.

Các khái niệm trọng số / so sánh chung tương tự giữ cho vấn đề GPA / ACT của bạn. Ngay cả khi chúng được "chuẩn hóa" chứ không phải "chuẩn hóa".

Một vấn đề cuối cùng. Tôi biết bạn sẽ không thích điều này, nhưng định nghĩa của thuật ngữ "độc lập bổ sung" nằm ở trang 4 của liên kết sau. Tôi tìm kiếm một định nghĩa ít táo bạo hơn, nhưng tôi không thể tìm thấy một định nghĩa. Bạn có thể nhìn xung quanh để tìm thứ gì đó tốt hơn.

Độc lập bổ sung

Trích dẫn liên kết:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Như được đề xuất ở đầu câu trả lời này, nếu bạn vẽ lưu lượng xe lửa được tiêu chuẩn hóa so với lưu lượng xe được tiêu chuẩn hóa trên một lô xy, bạn có thể thấy một mối tương quan. Nếu vậy, thì bạn bị mắc kẹt với phương trình tiện ích phi tuyến tính ở trên hoặc một cái gì đó tương tự.


Đồng ý. Bạn đúng. Tốt nhất là giải thích định nghĩa của tôi. Và khi nghĩ về nó một lần nữa, đó không phải là định nghĩa mà tôi cần. Những gì tôi cần là phương pháp thích hợp để tạo 1 điểm phổ quát. Cho dù đó là điểm Nhập học hay Điểm giao thông. Làm thế nào để đi đến việc tạo ra một số liệu phổ quát đó là chức năng của các biến khác, được biến đổi để đặt cả hai lên một tỷ lệ tương tự? Và đừng lo lắng về trọng lượng. Tôi hiểu rằng thậm chí chỉ cần tính tổng thẳng là trọng số 1/1. Nhưng đó không phải là mối quan tâm của tôi ngay bây giờ.
Chris

@Chris, tôi đã thêm câu trả lời của mình dưới dạng chỉnh sửa ở trên.
bill_080

2
(+1) Chỉnh sửa tốt. @Chris: bạn có thể quan tâm đến các ghi chú cho một bộ slide PowerPoint ngắn ở đây : đây là một bài thuyết trình về chủ đề tôi đã đưa cho những người không có kỹ thuật. Tôi đề cập đến nó bởi vì nó có một số hình ảnh minh họa và hướng dẫn về cách "tạo ra một số liệu phổ quát".
whuber

Multi-Thuộc tính tiện ích liên kết là chết, bài viết có thể được tìm thấy ở đây web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/...
mgilbert

6

Câu trả lời rất đơn giản, nhưng bạn sẽ không thích nó: nó phụ thuộc. Nếu bạn đánh giá 1 độ lệch chuẩn từ cả hai điểm bằng nhau, thì tiêu chuẩn hóa là hướng đi (lưu ý: thực tế, bạn đang học sinh , bởi vì bạn đang chia cho ước tính SD của dân số).

Nếu không, có khả năng tiêu chuẩn hóa sẽ là bước đầu tiên tốt, sau đó bạn có thể tăng thêm trọng lượng cho một trong những điểm số bằng cách nhân với một yếu tố wellchosen.


Vì vậy, bạn đang nói ít nhất là bắt đầu với những gì tôi mô tả là Tiêu chuẩn hóa (sinh viên hóa), sau đó điều chỉnh các trọng số để phù hợp nhất với dữ liệu / kịch bản? Điều đó có ý nghĩa. Tôi chỉ không hiểu tại sao tôi lại chia cho SD. Và trong quá trình nghiên cứu, tôi đã tìm thấy một thứ gọi là Sự khác biệt trung bình được chuẩn hóa .... và tôi đã tự làm mình bối rối. Có vẻ như nó nên đơn giản. Bạn có thể đặt cả hai trên Thang đo A hoặc một trên cùng một thang đo với nhau, sau đó tính tổng. Nhưng không. Thay vào đó tôi bối rối và tất cả Wiki hiện tại.
Chris

0

Để giải quyết vấn đề GPA / ACT hoặc xe lửa / xe hơi, tại sao không sử dụng Ý nghĩa hình học ?

n√ (a1 × a2 × ... × an)

Đâu a*là giá trị từ phân phối và nlà chỉ số của phân phối.

Giá trị trung bình hình học này đảm bảo rằng mỗi giá trị phân tán tỷ lệ của nó, đóng góp như nhau vào giá trị trung bình. Xem thêm tại Ý nghĩa hình học


3
Tôi không thấy rằng ý nghĩa hình học sẽ phù hợp với các tình huống mà OP mô tả.
gung

1
Tôi đồng ý với gung. Ý nghĩa hình học không phải là một giải pháp của vấn đề này.
Ferdi

Trung bình hình học sẽ ngăn giảm sự đóng góp của số lượng nhỏ hơn. Do đó, nó có thể là một sự thay thế cho tiêu chuẩn hóa hoặc chuẩn hóa khi các quy mô không đồng đều phải được kết hợp.
rnso

0

Trong lĩnh vực của tôi, khoa học dữ liệu, chuẩn hóa là một sự chuyển đổi dữ liệu cho phép dễ dàng so sánh dữ liệu xuôi dòng. Có nhiều loại bình thường hóa. Mở rộng quy mô là một trong số họ. Bạn cũng có thể đăng nhập dữ liệu hoặc làm bất cứ điều gì bạn muốn. Loại chuẩn hóa bạn sử dụng sẽ phụ thuộc vào kết quả bạn muốn, vì tất cả các chuẩn hóa đều biến đổi dữ liệu thành một thứ khác.

Ở đây một số những gì tôi xem xét các ví dụ bình thường hóa. Bình thường hóa quy Chuẩn hóa lượng tử

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.