Hiểu sơ đồ PCA này về doanh số bán kem so với nhiệt độ


9

Tôi đang lấy dữ liệu giả về nhiệt độ so với Bán kem và phân loại nó bằng K Means (n ​​cụm = 2) để phân biệt 2 loại (hoàn toàn giả).

Bây giờ tôi đang thực hiện Phân tích thành phần chính trên dữ liệu này và mục tiêu của tôi là hiểu những gì tôi thấy. Tôi biết rằng mục tiêu của PCA là giảm tính chiều (rõ ràng không phải trong trường hợp này) và hiển thị phương sai của các yếu tố. Nhưng làm thế nào để bạn đọc cốt truyện PCA dưới đây, tức là câu chuyện bạn có thể kể về nhiệt độ so với kem trong cốt truyện PCA là gì? PC thứ 1 (X) và 2 (Y) nghĩa là gì?

nhập mô tả hình ảnh ở đây


1
Đây phải là một bình luận, nhưng tôi không đủ đại diện. Liên kết dưới đây là một hướng dẫn tuyệt vời về PCA. Đặc biệt, Ví dụ đồ chơi tạo ra sự cân bằng tốt giữa "đủ đơn giản để hiểu với một hình ảnh" và "đủ phức tạp để nó có thể được sử dụng như một sự tương tự trong các vấn đề trong tương lai". Tôi nghĩ rằng đọc nó có thể giúp làm sáng tỏ những gì PCA có thể và không thể làm cho bạn. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

Câu trả lời:


18

Tôi biết rằng mục tiêu của PCA là giảm tính chiều

Đây thường là những gì mọi người giả định, nhưng trên thực tế, PCA chỉ là sự thể hiện dữ liệu của bạn trên cơ sở trực giao. Cơ sở này vẫn có cùng chiều với dữ liệu gốc của bạn. Không có gì bị mất ... chưa. Phần giảm kích thước hoàn toàn phụ thuộc vào bạn. Điều PCA đảm bảo là các kích thước trên cùng của phép chiếu mới của bạn là các kích thước tốt nhất mà dữ liệu của bạn có thể được biểu diễn dưới dạng. Điều đó có nghĩa gì nhất? Đó là nơi mà phương sai được giải thích xuất hiện.kk k

rõ ràng là không phải trong trường hợp này

Tôi sẽ không chắc về điều đó! Từ âm mưu thứ hai của bạn, có vẻ như rất nhiều thông tin từ dữ liệu của bạn có thể được chiếu lên một đường nằm ngang. Đó là 1 chiều, thay vì cốt truyện gốc ở 2 chiều! Rõ ràng là bạn mất một số thông tin vì bạn đang loại bỏ trục Y, nhưng liệu việc mất thông tin này có được bạn chấp nhận hay không, đó là cuộc gọi của bạn.

Có rất nhiều câu hỏi liên quan đến PCA là gì trên trang web vì vậy tôi khuyến khích bạn kiểm tra chúng ở đây , đây , đây hoặc đây . Nếu bạn có câu hỏi khác sau đó, xin vui lòng gửi chúng và tôi rất sẵn lòng giúp đỡ.

Như câu hỏi thực tế của bạn:

câu chuyện bạn có thể kể về nhiệt độ so với kem trong cốt truyện PCA là gì?

Vì trục tọa độ mới là sự kết hợp tuyến tính của tọa độ ban đầu, nên ... về cơ bản không có gì! PCA sẽ cho bạn câu trả lời như (số tạo thành):

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

Điều đó có hữu ích với bạn không? Có lẽ. Nhưng tôi đoán là không :)

Đã chỉnh sửa

Tôi sẽ thêm tài nguyên này mà tôi nghĩ là hữu ích vì biểu đồ tương tác rất tuyệt.

Chỉnh sửa lại

Để làm rõ ý nghĩa tốt nhất của :k

PCA cố gắng tìm các kích thước mang lại phương sai cao nhất khi dữ liệu được chiếu lên chúng. Giả sử dữ liệu của bạn có kích thước, PC đầu tiên giải thích nhiều phương sai trong dữ liệu của bạn hơn bất kỳ kích thước nào khác có thể. Đó là những gì tôi có nghĩa là tốt nhất . Cho dù điều đó có hữu ích với bạn hay không là một điều khác.k k kn>kkk k


6
Ngoài ra, hãy chắc chắn để quy mô biến. Nếu không, doanh số (số lượng cao hơn nhiều) sẽ giải thích phần lớn phương sai. Có lẽ tại sao các đơn vị trong PC của bạn rất khác nhau.
Filipe

Câu trả lời hay, nhưng tuyên bố của bạn "... kích thước kk tốt nhất mà dữ liệu của bạn có thể được biểu thị là ..." có lẽ quá khái quát. Hướng của phương sai tối đa không nhất thiết hữu ích cho việc tách hai lớp. Bằng cách nào đó, nó thường hoạt động tốt, nhưng không phải vì PCA làm bất cứ điều gì để đưa ra lựa chọn tốt nhất cho một mục đích cụ thể.
Wayne

"trên thực tế, PCA chỉ là sự thể hiện dữ liệu của bạn trên cơ sở trực giao." Tôi liên tục ngạc nhiên bởi thực tế là nhiều người không hiểu điểm này ...
3x89g2

5

Đối với câu trả lời hay của người đàn ông Ilan, tôi sẽ nói thêm rằng có một cách giải thích khá đơn giản về các thành phần chính của bạn, mặc dù trong trường hợp 2D đơn giản này, nó không bổ sung nhiều vào những gì chúng ta có thể diễn giải khi chỉ nhìn vào biểu đồ tán xạ.

PC đầu tiên là một tổng có trọng số (nghĩa là, một sự kết hợp tuyến tính trong đó cả hai hệ số đều dương) của tiêu thụ nhiệt độ và kem. Ở bên phải bạn có những ngày nắng nóng nơi bán rất nhiều kem, và ở phía bên trái bạn có những ngày lạnh hơn nơi bán ít kem hơn. PC đó giải thích hầu hết phương sai của bạn và các nhóm bạn có khớp với hai mặt đó.

PC thứ hai đo cách nhiệt độ và mức tiêu thụ kem di chuyển ra khỏi mối quan hệ tuyến tính chặt chẽ được gạch chân bởi PC thứ nhất. Ở phần trên của biểu đồ, chúng ta có những ngày có nhiều kem được bán hơn so với những ngày khác có cùng nhiệt độ và trong những ngày thấp hơn với lượng kem được bán ít hơn so với dự kiến ​​theo nhiệt độ. PC đó chỉ giải thích một phần nhỏ của phương sai.

Đó là, chúng ta có thể kể một câu chuyện từ các thành phần chính, mặc dù chỉ với hai biến đó là cùng một câu chuyện mà chúng ta có thể nhận thấy mà không cần PCA. Với nhiều biến hơn, PCA trở nên hữu ích hơn vì nó kể những câu chuyện khó nhận thấy hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.