Giảm kích thước không phải lúc nào cũng mất thông tin. Trong một số trường hợp, có thể biểu diễn lại dữ liệu trong không gian chiều thấp hơn mà không loại bỏ bất kỳ thông tin nào.
Giả sử bạn có một số dữ liệu trong đó mỗi giá trị đo được liên kết với hai hiệp phương trình được đặt hàng. Ví dụ: giả sử bạn đo chất lượng tín hiệu (được biểu thị bằng màu trắng = tốt, đen = xấu) trên lưới dày đặc của các vị trí và so với một số bộ phát. Trong trường hợp đó, dữ liệu của bạn có thể trông giống như âm mưu bên trái [* 1]:Qxy
Đó là, ít nhất là bề ngoài, một phần dữ liệu hai chiều: . Tuy nhiên, chúng ta có thể biết một tiên nghiệm (dựa trên vật lý cơ bản) hoặc giả định rằng nó chỉ phụ thuộc vào khoảng cách từ gốc: r = . (Một số phân tích thăm dò cũng có thể đưa bạn đến kết luận này nếu ngay cả hiện tượng cơ bản không được hiểu rõ). Sau đó, chúng tôi có thể viết lại dữ liệu của mình dưới dạng thay vì , điều này sẽ làm giảm hiệu quả kích thước xuống một chiều duy nhất. Rõ ràng, điều này chỉ mất mát nếu dữ liệu đối xứng hoàn toàn, nhưng đây là một giả định hợp lý cho nhiều hiện tượng vật lý.Q(x,y)x2+y2−−−−−−√Q(r)Q(x,y)
Biến đổi này là phi tuyến tính (có căn bậc hai và hai hình vuông!), Vì vậy nó hơi khác so với cách giảm kích thước được thực hiện bởi PCA, nhưng tôi nghĩ nó rất hay ví dụ về cách đôi khi bạn có thể xóa thứ nguyên mà không mất bất kỳ thông tin nào.Q(x,y)→Q(r)
Đối với một ví dụ khác, giả sử bạn thực hiện phân tách giá trị số ít trên một số dữ liệu (SVD là anh em họ gần gũi - và thường là cơ sở của phân tích thành phần chính). SVD lấy ma trận dữ liệu của bạn và đưa nó vào ba ma trận sao cho . Các cột của U và V là trái và phải vectơ đặc biệt, tương ứng, tạo thành một tập hợp các căn cứ trực giao cho . Các phần tử đường chéo của (nghĩa là là các giá trị số ít, có trọng số hiệu quả trên cơ sở thứ được hình thành bởi các cột tương ứng của và (phần còn lại củaMM=USVTMSSi,i)iUVSlà số không). Chính nó, điều này không cung cấp cho bạn bất kỳ sự giảm kích thước nào (trên thực tế, hiện có 3 ma trận thay vì ma trận duy nhất bạn đã bắt đầu). Tuy nhiên, đôi khi một số phần tử đường chéo của bằng không. Điều này có nghĩa là các cơ sở tương ứng trong và không cần thiết để tái tạo lại và vì vậy chúng có thể bị loại bỏ. Ví dụ: giả sửNxNNxNSUVMQ(x,y)ma trận trên chứa 10.000 phần tử (nghĩa là 100x100). Khi chúng tôi thực hiện một SVD trên nó, chúng tôi thấy rằng chỉ có một cặp vectơ số ít có giá trị khác không [* 2], vì vậy chúng tôi có thể biểu diễn lại ma trận gốc dưới dạng tích của hai vectơ 100 phần tử (200 hệ số, nhưng bạn thực sự có thể làm tốt hơn một chút [* 3]).
Đối với một số ứng dụng, chúng tôi biết (hoặc ít nhất là giả định) rằng thông tin hữu ích được thu thập bởi các thành phần chính có giá trị số ít (SVD) hoặc tải (PCA). Trong những trường hợp này, chúng tôi có thể loại bỏ các vectơ / cơ sở / thành phần chính có số lượng tải nhỏ hơn ngay cả khi chúng khác không, theo lý thuyết rằng chúng chứa nhiễu gây nhiễu hơn là tín hiệu hữu ích. Thỉnh thoảng tôi thấy mọi người từ chối các thành phần cụ thể dựa trên hình dạng của chúng (ví dụ, nó giống với nguồn nhiễu phụ gia đã biết) bất kể tải. Tôi không chắc liệu bạn có coi đây là mất thông tin hay không.
Có một số kết quả rõ ràng về sự tối ưu về lý thuyết thông tin của PCA. Nếu tín hiệu của bạn là Gaussian và bị hỏng với nhiễu Gaussian phụ gia, thì PCA có thể tối đa hóa thông tin lẫn nhau giữa tín hiệu và phiên bản giảm kích thước của nó (giả sử nhiễu có cấu trúc hiệp phương giống như nhận dạng).
Chú thích:
- Đây là một mô hình cheesy và hoàn toàn phi vật lý. Lấy làm tiếc!
- Do sự thiếu chính xác của dấu phẩy động, thay vào đó, một số giá trị này sẽ không hoàn toàn bằng không.
- Khi kiểm tra thêm, trong trường hợp cụ thể này , hai vectơ số ít giống nhau và đối xứng về tâm của chúng, vì vậy chúng ta thực sự có thể biểu diễn toàn bộ ma trận chỉ với 50 hệ số. Lưu ý rằng bước đầu tiên rơi ra khỏi quy trình SVD tự động; thứ hai đòi hỏi một số kiểm tra / một bước nhảy vọt của đức tin. (Nếu bạn muốn nghĩ về điều này về điểm số PCA, ma trận điểm chỉ là từ phân tách SVD ban đầu; các đối số tương tự về số không hoàn toàn không đóng góp).US