Không gian dữ liệu, không gian biến, không gian quan sát, không gian mô hình (ví dụ trong hồi quy tuyến tính)


9

Giả sử chúng ta có ma trận dữ liệu , là -by- và vectơ nhãn , là -by-one. Ở đây, mỗi hàng của ma trận là một quan sát và mỗi cột tương ứng với một thứ nguyên / biến. (giả sử )XnpYnn>p

Sau đó, điều gì làm data space, variable space, observation space, model spacenghĩa là gì?

Là không gian được kéo dài bởi vectơ cột, một không gian -D (suy biến) vì nó có tọa độ trong khi được xếp hạng , được gọi là không gian biến vì nó được kéo dài bởi vectơ biến? Hay nó được gọi là không gian quan sát vì mỗi chiều / tọa độ tương ứng với một quan sát?nnp

Và những gì về không gian được kéo dài bởi các vectơ hàng?


5
Đây không phải là thuật ngữ phổ biến được biết đến. Bạn đã có một tài liệu tham khảo? Nếu không, chúng ta có thể đoán được ý của chúng là gì.
whuber

1
Tôi không có tài liệu tham khảo. Tôi đã từng nghe giáo sư của tôi nói với nó một thời gian trước đây.
dùng3813057

3
Sau đó, tôi khá chắc chắn rằng giáo sư của bạn đã xác định các thuật ngữ này tại một số điểm. Có lẽ họ đang ở trong ghi chú lớp học của bạn ....
whuber

Câu trả lời:


13

Những thuật ngữ này xuất hiện trong một số cuốn sách về thống kê đa biến. Giả sử bạn có ncác cá nhân bằng pma trận dữ liệu tính năng định lượng. Sau đó, bạn có thể vẽ các cá nhân dưới dạng các điểm trong không gian nơi các trục là các tính năng. Đó sẽ là scatterplot cổ điển, còn gọi là cốt truyện không gian biến . Chúng tôi nói, đám mây của các cá nhân trải rộng không gian được xác định bởi các tính năng trục.

Bạn cũng có thể hình dung ra biểu đồ phân tán với các điểm là các biến và các trục là các cá thể. Hoàn toàn như trước, chỉ có ngọn. Đó sẽ là biểu đồ không gian chủ đề (hoặc biểu đồ không gian quan sát) với các biến bao trùm nó, các cá nhân xác định nó.

Lưu ý rằng nếu (như thường xuyên) n>pthì, trong trường hợp thứ hai, chỉ một số pkích thước ngoài nkích thước là không cần thiết; điều đó có nghĩa là bạn có thể và có thể vẽ các pđiểm thay đổi trên biểu pđồ 1 chiều . Ngoài ra, bởi các điểm biến truyền thống thường được kết nối với điểm gốc và do đó chúng xuất hiện dưới dạng vectơ (mũi tên). Chúng tôi sử dụng biểu diễn không gian chủ đề chủ yếu để hiển thị mối quan hệ giữa các biến, do đó chúng tôi bỏ các đối tượng trục và mô tả các điểm dưới dạng mũi tên, để thuận tiện.1

Nếu các tính năng (cột của ma trận dữ liệu) được căn giữa trước khi vẽ sơ đồ không gian chủ đề thì các cosin của các góc giữa các vectơ biến đổi bằng với tương quan Pearson của chúng, trong khi độ dài vectơ bằng với các chỉ tiêu của biến (tổng bình phương gốc ) hoặc độ lệch chuẩn (nếu chia cho df ).

Không gian biến và không gian chủ đề là hai mặt của cùng một đồng tiền, chúng là cùng một không gian phân tích Euclide, chỉ được trình bày giống như gương với nhau. Chúng có chung các thuộc tính, chẳng hạn như các giá trị riêng và giá trị riêng. Do đó, có thể vẽ cả hai đối tượng và các biến cạnh nhau như các điểm trong không gian của các trục chính (hoặc cơ sở trực giao khác) của không gian phân tích đó, - biểu đồ chung này được gọi là biplot . Tôi không biết chính xác thuật ngữ "không gian dữ liệu" nghĩa là gì - nếu nó có nghĩa cụ thể thì tôi cho rằng đó là không gian phân tích chung trong đó không gian chủ đề và không gian biến là hai giả thuyết.

nhập mô tả hình ảnh ở đây

Một số liên kết địa phương:

  • Hình ảnh cho thấy đại diện không gian chủ đề của các thành phần chính (PCA), hồi quy tuyến tínhphân tích nhân tố , một lần nữa hồi quy . So sánh điều đó với biểu diễn truyền thống, không gian biến (scatterplot) của hồi quy và PCA .
  • Giải thích lý thuyết của biplot . Một nghiên cứu tự giải thích cấu trúc của biplot trong PCA .
  • Xem thêm một bài đăng cố gắng tìm hiểu xem người ta có thể giải quyết hình học nhiệm vụ PCA trên sơ đồ không gian chủ đề hay không (có vẻ như các PC xác định hình elip; nhưng làm thế nào để tìm thấy hình elip độc đáo đó?).

1n=5p=2


2
+1. Nhưng tôi không chắc ý nghĩa toán học chính xác của việc nói rằng biến và không gian chủ đề là "cùng một không gian phân tích Euclide".
amip

3
@amoeba, Không có toán học trong câu trả lời Tôi hy vọng rằng nó minh bạch bằng trực giác (đặc biệt đối với các chuyên gia đại số tuyến tính như bạn). Chẳng hạn, trong phân rã giá trị số ít của ma trận dữ liệu (svd, dựa trên biplot nào) - giá trị riêng của các giá trị riêng và ký tự riêng bên trái và bên phải là gì? Không phải là cùng một không gian phân tích, có thể được đặt ra theo nhiều cách khác nhau - trong số đó có (i) hàng và cột là điểm theo trục chính là trục; (ii) các hàng như các điểm theo các cột như các trục; (iii) cột là điểm theo hàng như trục?
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.