Làm thế nào để phân tích phân biệt tuyến tính làm giảm kích thước?


18

Có những từ trong "Các yếu tố của học thống kê" trên trang 91:

Các trọng tâm K trong khoảng không gian đầu vào p chiều ở hầu hết không gian con K-1 và nếu p lớn hơn K nhiều, đây sẽ là một chiều giảm đáng kể.

Tôi có hai câu hỏi:

  1. Tại sao K centroid trong khoảng không gian đầu vào p chiều ở hầu hết không gian con K-1?
  2. Làm thế nào các trung tâm K được đặt?

Không có lời giải thích trong cuốn sách và tôi đã không tìm thấy câu trả lời từ các giấy tờ liên quan.


3
Các trọng tâm nằm trong một không gian con affine K - 1 chiều . Ví dụ: hai điểm nằm trên một đường thẳng, không gian con . Đây chỉ là định nghĩa của một không gian con affine và một số đại số tuyến tính cơ bản. KK-12-1
bắt đầu từ

Một câu hỏi rất giống nhau: stats.stackexchange.com/q/169436/3277 .
ttnphns

Câu trả lời:


16

mTôin(k-1,p)

nhập mô tả hình ảnh ở đây

Đại số của LDA ở giai đoạn trích xuất là ở đây .


Đồ thị đẹp, phần mềm / gói nào bạn đã sử dụng để tạo ra nó?
Michelle

SPSS. Macro tự viết cho SPSS.
ttnphns

Điều này có nghĩa là bạn sẽ không thấy sự phân tách lớp tốt trong một LDA với, giả sử, ba lớp có sự chồng chéo, cho đến khi bạn hủy bỏ trục ?? Ý tôi là, tôi đang điều hành một LDA và các lớp của tôi tách biệt ... nhưng chúng nằm ngay trên đầu mỗi trục trong mọi trục phân biệt ngoại trừ cái đầu tiên ... và cái đó rất lớn.
donlan

14

Mặc dù "Các yếu tố của học thống kê" là một cuốn sách tuyệt vời, nó đòi hỏi trình độ kiến ​​thức tương đối cao để tận dụng tối đa nó. Có nhiều tài nguyên khác trên web để giúp bạn hiểu các chủ đề trong cuốn sách.

Hãy lấy một ví dụ rất đơn giản về phân tích phân biệt tuyến tính trong đó bạn muốn nhóm một tập hợp các điểm dữ liệu hai chiều thành K = 2 nhóm. Việc giảm kích thước sẽ chỉ là K-1 = 2-1 = 1. Như @deinst đã giải thích, việc giảm kích thước có thể được giải thích bằng hình học cơ bản.

Hai điểm trong bất kỳ chiều nào cũng có thể được nối bởi một đường và một đường là một chiều. Đây là một ví dụ về không gian con K-1 = 2-1 = 1 chiều.

Bây giờ, trong ví dụ đơn giản này, tập hợp các điểm dữ liệu sẽ nằm rải rác trong không gian hai chiều. Các điểm sẽ được biểu thị bằng (x, y), vì vậy, ví dụ bạn có thể có các điểm dữ liệu như (1,2), (2,1), (9,10), (13,13). Bây giờ, sử dụng phân tích phân biệt tuyến tính để tạo hai nhóm A và B sẽ dẫn đến các điểm dữ liệu được phân loại thuộc nhóm A hoặc nhóm B sao cho các thuộc tính nhất định được thỏa mãn. Phân tích phân biệt tuyến tính cố gắng tối đa hóa phương sai giữa các nhóm so với phương sai trong các nhóm.

Nói cách khác, các nhóm A và B sẽ cách xa nhau và chứa các điểm dữ liệu gần nhau. Trong ví dụ đơn giản này, rõ ràng các điểm sẽ được nhóm lại như sau. Nhóm A = {(1,2), (2,1)} và Nhóm B = {(9,10), (13,13)}.

Bây giờ, trọng tâm được tính là trọng tâm của các nhóm điểm dữ liệu

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

Centroid chỉ đơn giản là 2 điểm và chúng trải dài trên đường 1 chiều nối chúng lại với nhau.

Hình 1

Bạn có thể nghĩ về phân tích phân biệt tuyến tính như một hình chiếu của các điểm dữ liệu trên một dòng sao cho hai nhóm điểm dữ liệu càng "tách biệt càng tốt"

Nếu bạn có ba nhóm (và nói các điểm dữ liệu ba chiều) thì bạn sẽ nhận được ba trọng tâm, chỉ cần ba điểm và ba điểm trong không gian 3D xác định mặt phẳng hai chiều. Một lần nữa quy tắc K - 1 = 3-1 = 2 chiều.

Tôi đề nghị bạn tìm kiếm trên web các tài nguyên sẽ giúp giải thích và mở rộng trên phần giới thiệu đơn giản mà tôi đã đưa ra; ví dụ: http://www.music.mcgill.ca/~ich/groupes/mumt611_07/ classifier / laha_theory.pdf


1
Chào mừng đến với trang web của chúng tôi, Martino!
whuber

cảm ơn @whuber, đồ thị đẹp, tôi không có công cụ nào như vậy trong tay :(
martino

Tôi không nghĩ bạn có tiếng để đăng một bức ảnh nào, Martino: đó là lý do tại sao tôi tạo một bức ảnh cho bạn. Nhưng bây giờ - hoặc sớm - bạn sẽ có đủ đại diện. Nếu không có gì tiện dụng, bạn có thể sử dụng phần mềm có sẵn miễn phí với khả năng vẽ hình học như R hoặc Geogebra . (Bạn sẽ thấy rằng các câu trả lời minh họa nhận được nhiều sự chú ý hơn: chúng hấp dẫn và dễ đọc hơn.)
whuber

Tại sao các downvote? Nếu có vấn đề với câu trả lời, sẽ rất hữu ích khi chỉ ra - tôi không thể thấy một
martino
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.