Tại sao chúng ta chia theo độ lệch chuẩn mà không phải là một số yếu tố tiêu chuẩn hóa khác trước khi thực hiện PCA?


17

Tôi đã đọc những lời biện minh sau đây (từ ghi chú khóa học cs229) về lý do tại sao chúng ta chia dữ liệu thô theo độ lệch chuẩn của nó:

nhập mô tả hình ảnh ở đây

mặc dù tôi hiểu những gì giải thích đang nói, tôi không rõ tại sao chia cho độ lệch chuẩn sẽ đạt được mục tiêu như vậy. Nó nói rằng tất cả mọi người là nhiều hơn trên cùng một "quy mô". Tuy nhiên, nó không hoàn toàn rõ ràng tại sao chia cho độ lệch chuẩn đạt được điều đó. Giống như, có gì sai khi chia theo phương sai? Tại sao không phải là một số lượng khác? Giống như ... tổng các giá trị tuyệt đối? hoặc một số chỉ tiêu khác ... Có sự biện minh toán học nào cho việc chọn STD không?

Là những tuyên bố trong trích xuất này là một tuyên bố lý thuyết có thể được rút ra / chứng minh thông qua toán học (và / hoặc thống kê) hay đó là một trong những tuyên bố mà chúng ta làm bởi vì nó dường như hoạt động trong "thực tiễn"?

Về cơ bản, người ta có thể cung cấp một lời giải thích toán học nghiêm ngặt về lý do tại sao trực giác đó là đúng? Hoặc nếu nó chỉ là một quan sát thực nghiệm, tại sao chúng ta nghĩ rằng nó hoạt động nói chung trước khi làm PCA?

Ngoài ra, trong bối cảnh của PCA, đây có phải là quá trình chuẩn hóa hoặc chuẩn hóa?


Một số suy nghĩ khác mà tôi có có thể "giải thích" tại sao STD:

Vì PCA có thể được bắt nguồn từ việc tối đa hóa phương sai, tôi đoán rằng việc chia cho một đại lượng liên quan như STD, có thể là một trong những lý do chúng tôi chia cho STD. Nhưng sau đó tôi đã cân nhắc rằng có lẽ nếu chúng ta định nghĩa có thể là "phương sai" với bất kỳ quy tắc nào khác, , sau đó chúng ta sẽ chia cho STD của định mức đó (bằng cách lấy gốc pth hoặc một cái gì đó). Mặc dù, đó chỉ là một phỏng đoán và tôi không 100% về điều này, do đó câu hỏi. Tôi đã tự hỏi nếu có ai biết bất cứ điều gì liên quan đến điều này.1ni=1n(xTôi-μ)p


Tôi đã thấy rằng có thể có một câu hỏi liên quan:

PCA về tương quan hay hiệp phương sai?

nhưng dường như nói nhiều hơn về việc khi nào nên sử dụng "tương quan" hay "hiệp phương sai" nhưng thiếu những biện minh chặt chẽ hoặc thuyết phục hoặc chi tiết, đó là điều tôi chủ yếu quan tâm.

Giống với:

Tại sao chúng ta cần bình thường hóa dữ liệu trước khi phân tích

liên quan:

Biến "Bình thường hóa" cho SVD / PCA


1
Có một lý do toán học - chia dữ liệu (chính giữa) cho SD cho mỗi biến tạo ra một tập dữ liệu được biến đổi có ma trận hiệp phương sai đơn giản là ma trận tương quan của dữ liệu gốc (chính giữa). Sau đó, chúng ta lại tiếp tục tương quan với lãnh thổ ma trận hiệp phương sai. Bạn đang tìm kiếm bằng chứng về cách bình thường hóa dữ liệu biến ma trận hiệp phương sai thành ma trận tương quan?
Cá bạc

Câu hỏi tiêu đề của bạn đọc như thể bạn đang hỏi mục đích bình thường hóa nó là gì (trái ngược với việc không bình thường hóa). Đây sẽ là một bản sao của "PCA về tương quan hoặc hiệp phương sai". Tuy nhiên, những gì bạn thực sự có vẻ đang hỏi là tại sao việc chuẩn hóa được thực hiện thông qua việc chia cho STD (trái ngược với việc chia theo phương sai, hoặc phạm vi, v.v.). Nếu vậy, có lẽ bạn muốn chỉnh sửa để làm cho câu hỏi tiêu đề chính xác hơn?
amip nói phục hồi Monica

3
Về thuật ngữ, "bình thường hóa" không phải là một thuật ngữ chính xác và có thể đề cập đến nhiều thứ khác nhau. Trong khi "tiêu chuẩn hóa" có nghĩa là trừ đi giá trị trung bình và chia cho độ lệch chuẩn, đó là những gì bạn đang đề cập đến.
amip nói phục hồi Monica

2
Tôi nên thêm rằng tôi nghĩ câu hỏi của bạn rất hay (+1). Người ta thực sự có thể bình thường hóa bằng cách chia cho một cái gì đó khác; ví dụ, độ lệch chuẩn là một biện pháp rất không mạnh mẽ và có thể gây hiểu nhầm khi có sự xuất hiện mạnh mẽ. Vì vậy, người ta có thể chọn cách chia theo một số biện pháp lan truyền mạnh mẽ thay vào đó (xem ví dụ "độ lệch tuyệt đối trung vị"). Không có "giải thích toán học nghiêm ngặt" về lý do tại sao sử dụng STD là cách tốt nhất để bình thường hóa, và bạn đã đúng khi nói rằng "đó chỉ là một quan sát thực nghiệm" mà nó thường hoạt động tốt.
amip nói rằng Phục hồi Monica

2
Thay vào đó "tại sao không phân chia theo phương sai thay thế" - điều đó có thể được giải thích khá dễ dàng bởi sự không nhất quán về chiều. Chẳng hạn, nó sẽ cho bạn kết quả lạ nếu bạn thay đổi đơn vị một trong các biến. "Tại sao không chia cho MAD" - nếu dữ liệu được phân phối bình thường, thì vì (trong dân số) MAD tỷ lệ thuận với SD, nên có thể chia cho nhiều MAD thích hợp và nhận được (không hiệu quả nhưng có thể mạnh mẽ? ) ước tính của mối tương quan. Điều đó thú vị hơn.
Cá bạc

Câu trả lời:


11

Đây là câu trả lời một phần cho "tôi không rõ tại sao chia cho độ lệch chuẩn sẽ đạt được mục tiêu như vậy". Cụ thể, tại sao nó đặt dữ liệu được chuyển đổi (chuẩn hóa) trên "cùng một tỷ lệ". Câu hỏi gợi ý về các vấn đề sâu sắc hơn (những gì khác có thể đã "hoạt động", liên quan đến những gì "hoạt động" thậm chí có thể có nghĩa là về mặt toán học?), Nhưng có vẻ hợp lý để giải quyết các khía cạnh đơn giản hơn về lý do tại sao quy trình này "hoạt động" - đó là, đạt được các yêu cầu đưa ra cho nó trong văn bản.

ijithjthiiithith

ithXijthXj

Cov(Xi,Xj)=σXiσXjCor(Xi,Xj)

Zi=XiσXi và để xem tại sao phương sai là một, lưu ý rằng

Var(Zi)=Var(XiσXi)=1σXi2Var(Xi)=1σXi2σXi2=1

Zjij

Cov(Zi,Zj)=σZiσZjCor(Zi,Zj)=Cor(Zi,Zj)

Cor(Zi,Zj)Cor(Xi,Xj)

Cov(Zi,Zi)=Var(Zi)=1Vì vậy, toàn bộ đường chéo được lấp đầy với những gì, như chúng ta mong đợi. Theo nghĩa này, dữ liệu hiện tại "trên cùng một tỷ lệ" - các phân phối biên của chúng sẽ trông rất giống nhau, ít nhất là nếu chúng được phân phối một cách bình thường để bắt đầu, với độ lệch trung bình và độ lệch chuẩn (và độ lệch chuẩn). Nó không còn là trường hợp mà một biến số thay đổi đầm lầy các biến khác. Bạn có thể đã chia cho một biện pháp lây lan khác nhau, tất nhiên. Phương sai sẽ là một lựa chọn đặc biệt tồi tệ do sự không nhất quán về chiều (hãy nghĩ về những gì sẽ xảy ra nếu bạn thay đổi đơn vị một trong các biến của bạn, ví dụ từ mét sang km). Một cái gì đó như độ lệch tuyệt đối trung vị (hoặc bội số thích hợp của MADnếu bạn đang cố gắng sử dụng nó như một loại công cụ ước tính mạnh mẽ về độ lệch chuẩn) có thể phù hợp hơn. Nhưng nó vẫn không biến đường chéo đó thành đường chéo.

Kết quả cuối cùng là một phương pháp hoạt động trên ma trận hiệp phương sai của dữ liệu được tiêu chuẩn hóa, về cơ bản là sử dụng ma trận tương quan của dữ liệu gốc. Đối với những gì bạn muốn sử dụng trên PCA, xem PCA về tương quan hoặc hiệp phương sai?


2
Tôi nghĩ rằng câu trả lời này không thực sự chạm đến câu hỏi thực tế (và không tầm thường) về lý do tại sao độ lệch chuẩn được lấy làm thước đo độ lây lan và được sử dụng để chuẩn hóa. Tại sao không lấy độ lệch tuyệt đối trung bình thay thế? Cấp, ma trận hiệp phương sai kết quả sẽ không phải là ma trận tương quan "mặc định", nhưng có lẽ nó sẽ tốt hơn, ví dụ như ước lượng mạnh hơn của ma trận tương quan. Xem thêm bình luận cuối cùng của tôi cho OP.
amip nói rằng Phục hồi Monica

2
@ameoba Ở điểm "trung bình sâu", thực tế là chúng ta có các phương sai của một đường chéo của ma trận hiệp phương sai mới về cơ bản là những gì chúng ta muốn nói bằng cách lấy dữ liệu biến đổi để có các biến "trên cùng một tỷ lệ" từ phối cảnh PCA. Về các vấn đề "rất sâu sắc" được nêu ra bởi câu hỏi này, tôi không chắc có nhiều khác biệt giữa việc hỏi "tại sao chúng ta sử dụng phương sai làm thước đo trong PCA?" và hỏi "tại sao PCA lại quan tâm đến phương sai (đồng)?" - hoặc ít nhất, rằng hai vấn đề sẽ liên quan mật thiết với nhau.
Cá bạc

1
@amoeba, tại sao không chia theo MAD hoặc theo phương sai thay vì SD, về cơ bản, cùng một câu hỏi như tại sao lại có quy mô khác biệt: đó là tại sao không thực hiện PCA trên hiệp phương sai thay thế? Tôi ủng hộ ý tưởng này trong bình luận trước.
ttnphns

1
@ttnphns: Nếu các biến khác nhau có thang đo hoàn toàn không thể so sánh được (nhiệt độ, chiều dài, trọng lượng, v.v.), thì mong muốn bằng cách nào đó bình thường hóa các biến là khá dễ hiểu. Đó là đối số phổ biến cho việc sử dụng ma trận tương quan thay vì ma trận hiệp phương sai. Nhưng nếu ai đó lo lắng về các ngoại lệ, tôi thấy không có gì sai khi trừ trung bình thay vì trung bình và chia cho MAD thay vì SVD ... Tôi không bao giờ tự làm điều đó, nhưng tôi nghĩ nó có vẻ như là một điều hợp lý để làm.
amip nói rằng Phục hồi Monica

1
@amoeba, PCA tuyến tính cần ma trận là ma trận loại SSCP . Bất kỳ biến đổi tuyến tính của các biến ban đầu bảo tồn loại này. Tất nhiên, bạn cũng có thể thực hiện bất kỳ biến đổi phi tuyến nào (chẳng hạn như xếp hạng, để lấy ma trận Spearman rho), nhưng sau đó điểm số và tải thành phần làm mất kết nối trực tiếp (theo nghĩa tối thiểu hóa bình phương tối thiểu) với dữ liệu: chúng bây giờ đại diện cho dữ liệu được chuyển đổi thay thế!
ttnphns

5

Tại sao chúng ta chia cho độ lệch chuẩn có
gì sai khi chia cho phương sai?

z phân phối chuẩn thông thường : Nếu dữ liệu được phân phối bình thường, tiêu chuẩn hóa sẽ chuyển đổi chúng thành phân phối chuẩn thông thường.

Vì vậy: tiêu chuẩn hóa (có nghĩa là định tâm + chia tỷ lệ theo độ lệch chuẩn) có ý nghĩa nếu bạn xem xét phân phối chuẩn thông thường hợp lý cho dữ liệu của bạn.

Tại sao không phải là một số lượng khác? Giống như ... tổng các giá trị tuyệt đối? hoặc một số chỉ tiêu khác ...

Số lượng khác được sử dụng để mở rộng quy mô dữ liệu, nhưng thủ tục chỉ được gọi là tiêu chuẩn hóa nếu nó sử dụng định tâm trung bình và chia cho độ lệch chuẩn. Chia tỷ lệ là thuật ngữ chung.

Ví dụ, tôi làm việc với dữ liệu phổ và biết rằng máy dò của tôi có độ nhạy phụ thuộc bước sóng và độ lệch (điện tử). Do đó, tôi hiệu chỉnh bằng cách trừ tín hiệu bù (trống) và nhân (chia) cho hệ số hiệu chuẩn.

Ngoài ra, tôi có thể tập trung không phải là trung bình mà thay vào đó là một số giá trị cơ bản khác, chẳng hạn như giá trị trung bình của nhóm kiểm soát thay vì trung bình lớn. (Cá nhân tôi gần như không bao giờ tiêu chuẩn hóa vì các biến thể của tôi đã có cùng đơn vị vật lý và có cùng độ lớn)

Xem thêm: Các biến thường được điều chỉnh (ví dụ: được chuẩn hóa) trước khi tạo mô hình - khi nào thì đây là một ý tưởng tốt và khi nào nó là một ý tưởng tồi?


+1. Ví dụ đẹp với dữ liệu phổ. Nhân tiện, chúc mừng bạn đã đạt được 10k rep!
amip nói rằng Phục hồi lại

0

Liên kết này trả lời rõ ràng câu hỏi của bạn, tôi đoán: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html

Tôi trích dẫn một mẩu nhỏ:

Tiêu chuẩn hóa điểm Z hoặc nhân rộng Min-Max?

Tiêu chuẩn hóa hay quy mô tối thiểu của Max? Tối đa - Không có câu trả lời rõ ràng cho câu hỏi này: nó thực sự phụ thuộc vào ứng dụng.

Ví dụ, trong các phân tích phân cụm, tiêu chuẩn hóa có thể đặc biệt quan trọng để so sánh sự tương đồng giữa các tính năng dựa trên các thước đo khoảng cách nhất định. Một ví dụ nổi bật khác là Phân tích thành phần chính, trong đó chúng tôi thường thích tiêu chuẩn hóa hơn tỷ lệ tối thiểu, vì chúng tôi quan tâm đến các thành phần tối đa hóa phương sai (tùy thuộc vào câu hỏi và nếu PCA tính toán các thành phần thông qua ma trận tương quan thay vì ma trận hiệp phương sai, nhưng nhiều hơn về PCA trong bài viết trước của tôi).

Tuy nhiên, điều này không có nghĩa là tỉ lệ Min-Max hoàn toàn không hữu ích! Một ứng dụng phổ biến là xử lý hình ảnh, trong đó cường độ điểm ảnh phải được chuẩn hóa để phù hợp trong một phạm vi nhất định (nghĩa là 0 đến 255 cho phạm vi màu RGB). Ngoài ra, thuật toán mạng thần kinh điển hình yêu cầu dữ liệu trên thang điểm 0-1.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.