Tôi đã đọc những lời biện minh sau đây (từ ghi chú khóa học cs229) về lý do tại sao chúng ta chia dữ liệu thô theo độ lệch chuẩn của nó:
mặc dù tôi hiểu những gì giải thích đang nói, tôi không rõ tại sao chia cho độ lệch chuẩn sẽ đạt được mục tiêu như vậy. Nó nói rằng tất cả mọi người là nhiều hơn trên cùng một "quy mô". Tuy nhiên, nó không hoàn toàn rõ ràng tại sao chia cho độ lệch chuẩn đạt được điều đó. Giống như, có gì sai khi chia theo phương sai? Tại sao không phải là một số lượng khác? Giống như ... tổng các giá trị tuyệt đối? hoặc một số chỉ tiêu khác ... Có sự biện minh toán học nào cho việc chọn STD không?
Là những tuyên bố trong trích xuất này là một tuyên bố lý thuyết có thể được rút ra / chứng minh thông qua toán học (và / hoặc thống kê) hay đó là một trong những tuyên bố mà chúng ta làm bởi vì nó dường như hoạt động trong "thực tiễn"?
Về cơ bản, người ta có thể cung cấp một lời giải thích toán học nghiêm ngặt về lý do tại sao trực giác đó là đúng? Hoặc nếu nó chỉ là một quan sát thực nghiệm, tại sao chúng ta nghĩ rằng nó hoạt động nói chung trước khi làm PCA?
Ngoài ra, trong bối cảnh của PCA, đây có phải là quá trình chuẩn hóa hoặc chuẩn hóa?
Một số suy nghĩ khác mà tôi có có thể "giải thích" tại sao STD:
Vì PCA có thể được bắt nguồn từ việc tối đa hóa phương sai, tôi đoán rằng việc chia cho một đại lượng liên quan như STD, có thể là một trong những lý do chúng tôi chia cho STD. Nhưng sau đó tôi đã cân nhắc rằng có lẽ nếu chúng ta định nghĩa có thể là "phương sai" với bất kỳ quy tắc nào khác, , sau đó chúng ta sẽ chia cho STD của định mức đó (bằng cách lấy gốc pth hoặc một cái gì đó). Mặc dù, đó chỉ là một phỏng đoán và tôi không 100% về điều này, do đó câu hỏi. Tôi đã tự hỏi nếu có ai biết bất cứ điều gì liên quan đến điều này.
Tôi đã thấy rằng có thể có một câu hỏi liên quan:
PCA về tương quan hay hiệp phương sai?
nhưng dường như nói nhiều hơn về việc khi nào nên sử dụng "tương quan" hay "hiệp phương sai" nhưng thiếu những biện minh chặt chẽ hoặc thuyết phục hoặc chi tiết, đó là điều tôi chủ yếu quan tâm.
Giống với:
Tại sao chúng ta cần bình thường hóa dữ liệu trước khi phân tích
liên quan: