Giả sử chúng ta có biến số có thể đo được, , chúng tôi thực hiện một số của phép đo và sau đó muốn thực hiện phân tách giá trị số ít trên các kết quả để tìm ra trục có phương sai cao nhất cho các điểm trong không gian chiều. ( Lưu ý: giả sử rằng phương tiện của đã bị trừ, vì vậy cho tất cả .)( một 1 , một 2 , ... , một N ) M > N M N một i ⟨ một i ⟩ = 0 i
Bây giờ giả sử rằng một (hoặc nhiều) biến có độ lớn đặc trưng khác biệt đáng kể so với phần còn lại. Ví dụ: có thể có các giá trị trong phạm vi trong khi phần còn lại có thể ở khoảng . Điều này sẽ làm lệch trục của phương sai cao nhất đối với trục của rất nhiều. 10 - 100 0,1 - 1 a 1
Sự khác biệt về cường độ có thể đơn giản là do sự lựa chọn đơn vị đo lường không may (nếu chúng ta đang nói về dữ liệu vật lý, ví dụ như km so với mét), nhưng thực tế các biến khác nhau có thể có các kích thước hoàn toàn khác nhau (ví dụ: trọng lượng so với khối lượng), vì vậy có thể không có cách rõ ràng nào để chọn đơn vị "so sánh" cho chúng.
Câu hỏi: Tôi muốn biết liệu có tồn tại bất kỳ cách tiêu chuẩn / phổ biến nào để bình thường hóa dữ liệu để tránh vấn đề này không. Tôi quan tâm nhiều hơn đến các kỹ thuật tiêu chuẩn tạo ra cường độ tương đương cho cho mục đích này hơn là đưa ra một cái gì đó mới.
EDIT: Một khả năng là bình thường hóa từng biến bằng độ lệch chuẩn của nó hoặc một cái gì đó tương tự. Tuy nhiên, vấn đề sau sẽ xuất hiện sau đó: chúng ta hãy giải thích các dữ liệu như một đám mây điểm trong không gian ba chiều. Đám mây điểm này có thể được xoay và loại chuẩn hóa này sẽ cho kết quả cuối cùng khác nhau (sau SVD) tùy thuộc vào vòng quay. (Ví dụ, trong trường hợp cực đoan nhất, hãy tưởng tượng xoay chính xác dữ liệu để căn chỉnh các trục chính với các trục chính.)
Tôi hy vọng sẽ không có bất kỳ cách xoay vòng nào để làm điều này, nhưng tôi đánh giá cao nếu ai đó có thể chỉ cho tôi một số thảo luận về vấn đề này trong tài liệu, đặc biệt là về việc giải thích kết quả.