Những thuật ngữ này xuất hiện trong một số cuốn sách về thống kê đa biến. Giả sử bạn có n
các cá nhân bằng p
ma trận dữ liệu tính năng định lượng. Sau đó, bạn có thể vẽ các cá nhân dưới dạng các điểm trong không gian nơi các trục là các tính năng. Đó sẽ là scatterplot cổ điển, còn gọi là cốt truyện không gian biến . Chúng tôi nói, đám mây của các cá nhân trải rộng không gian được xác định bởi các tính năng trục.
Bạn cũng có thể hình dung ra biểu đồ phân tán với các điểm là các biến và các trục là các cá thể. Hoàn toàn như trước, chỉ có ngọn. Đó sẽ là biểu đồ không gian chủ đề (hoặc biểu đồ không gian quan sát) với các biến bao trùm nó, các cá nhân xác định nó.
Lưu ý rằng nếu (như thường xuyên) n>p
thì, trong trường hợp thứ hai, chỉ một số p
kích thước ngoài n
kích thước là không cần thiết; điều đó có nghĩa là bạn có thể và có thể vẽ các p
điểm thay đổi trên biểu p
đồ 1 chiều . Ngoài ra, bởi các điểm biến truyền thống thường được kết nối với điểm gốc và do đó chúng xuất hiện dưới dạng vectơ (mũi tên). Chúng tôi sử dụng biểu diễn không gian chủ đề chủ yếu để hiển thị mối quan hệ giữa các biến, do đó chúng tôi bỏ các đối tượng trục và mô tả các điểm dưới dạng mũi tên, để thuận tiện.1
Nếu các tính năng (cột của ma trận dữ liệu) được căn giữa trước khi vẽ sơ đồ không gian chủ đề thì các cosin của các góc giữa các vectơ biến đổi bằng với tương quan Pearson của chúng, trong khi độ dài vectơ bằng với các chỉ tiêu của biến (tổng bình phương gốc ) hoặc độ lệch chuẩn (nếu chia cho df ).
Không gian biến và không gian chủ đề là hai mặt của cùng một đồng tiền, chúng là cùng một không gian phân tích Euclide, chỉ được trình bày giống như gương với nhau. Chúng có chung các thuộc tính, chẳng hạn như các giá trị riêng và giá trị riêng. Do đó, có thể vẽ cả hai đối tượng và các biến cạnh nhau như các điểm trong không gian của các trục chính (hoặc cơ sở trực giao khác) của không gian phân tích đó, - biểu đồ chung này được gọi là biplot . Tôi không biết chính xác thuật ngữ "không gian dữ liệu" nghĩa là gì - nếu nó có nghĩa cụ thể thì tôi cho rằng đó là không gian phân tích chung trong đó không gian chủ đề và không gian biến là hai giả thuyết.
Một số liên kết địa phương:
- Hình ảnh cho thấy đại diện không gian chủ đề của các thành phần chính (PCA), hồi quy tuyến tính và phân tích nhân tố , một lần nữa hồi quy . So sánh điều đó với biểu diễn truyền thống, không gian biến (scatterplot) của hồi quy và PCA .
- Giải thích lý thuyết của biplot . Một nghiên cứu tự giải thích cấu trúc của biplot trong PCA .
- Xem thêm một bài đăng cố gắng tìm hiểu xem người ta có thể giải quyết hình học nhiệm vụ PCA trên sơ đồ không gian chủ đề hay không (có vẻ như các PC xác định hình elip; nhưng làm thế nào để tìm thấy hình elip độc đáo đó?).
1n=5
p=2