Làm thế nào tôi có thể nói rằng không có mẫu trong kết quả PCA?


9

Tôi có hơn 1000 tập dữ liệu mẫu gồm 19 biến. Mục tiêu của tôi là dự đoán một biến nhị phân dựa trên 18 biến khác (nhị phân và liên tục). Tôi khá tự tin rằng 6 trong số các biến dự đoán có liên quan đến phản hồi nhị phân, tuy nhiên, tôi muốn phân tích sâu hơn về tập dữ liệu và tìm kiếm các liên kết hoặc cấu trúc khác mà tôi có thể bị thiếu. Để làm điều này, tôi quyết định sử dụng PCA và phân cụm.

Khi chạy PCA trên dữ liệu đã chuẩn hóa, hóa ra cần phải giữ 11 thành phần để giữ lại 85% phương sai. nhập mô tả hình ảnh ở đây Bằng cách vẽ sơ đồ các cặp, tôi nhận được điều này: nhập mô tả hình ảnh ở đây

Tôi không chắc chắn về những gì tiếp theo ... Tôi thấy không có mô hình đáng kể nào trong pca và tôi tự hỏi điều này có nghĩa là gì và liệu nó có thể được gây ra bởi thực tế là một số biến là nhị phân. Bằng cách chạy một thuật toán phân cụm với 6 cụm, tôi nhận được kết quả sau đây không chính xác là một sự cải tiến mặc dù một số đốm màu dường như nổi bật (những cụm màu vàng). nhập mô tả hình ảnh ở đây

Như bạn có thể nói, tôi không phải là một chuyên gia về PCA, nhưng đã xem một số hướng dẫn và làm thế nào nó có thể mạnh mẽ để có cái nhìn thoáng qua về các cấu trúc trong không gian chiều cao. Với các chữ số MNIST nổi tiếng (hoặc bộ dữ liệu IRIS), nó hoạt động rất tốt. Câu hỏi của tôi là: tôi nên làm gì bây giờ để hiểu rõ hơn về PCA? Phân cụm dường như không nhận được bất cứ điều gì hữu ích, làm thế nào tôi có thể nói rằng không có mẫu nào trong PCA hoặc tôi nên thử gì tiếp theo để tìm mẫu trong dữ liệu PCA?


Tại sao bạn làm PCA để tìm người dự đoán? Tại sao không sử dụng một số phương pháp khác? ví dụ: bạn có thể bao gồm tất cả chúng trong một chế độ logistic, bạn có thể sử dụng LASSO, bạn có thể xây dựng mô hình cây, đóng bao, tăng tốc, v.v.
Peter Flom

Bạn đặc biệt hiểu ý của "mẫu" mà PCA là gì để tiết lộ?
ttnphns

@ttnphns những gì tôi đang cố gắng làm là tìm một số nhóm quan sát có thể có điểm chung để giải thích rõ hơn về kết quả của phản ứng nhị phân mà tôi đang cố gắng dự đoán (điều này được lấy cảm hứng một phần từ Dailyanalytics.ca/2014/ 06 / Lọ ). Ngoài ra, sử dụng pca và phân cụm trên tập dữ liệu mống mắt, rất hữu ích để cô lập các loài ( scikit-learn.org/ sóng / auto_examples / decysis / lau ) mặc dù điều đó cực kỳ dễ dàng vì chúng ta đã biết số lượng cụm.
mickkk

@PeterFlom Tôi đã chạy hồi quy logistic và mô hình rừng ngẫu nhiên và chúng đang hoạt động tốt, tuy nhiên tôi muốn điều tra thêm về dữ liệu.
mickkk

Câu trả lời:


7

Bạn giải thích âm mưu phương sai cho tôi biết rằng PCA là vô nghĩa ở đây. 18/11 là 61%, vì vậy bạn cần 61% các biến của mình để giải thích 85% phương sai. Theo tôi, đó không phải là trường hợp của PCA. Tôi sử dụng PCA khi 3-5 yếu tố của 18 giải thích 95% hoặc hơn về phương sai.

CẬP NHẬT: Nhìn vào biểu đồ tỷ lệ phần trăm tích lũy của phương sai được giải thích bởi số lượng PC. Đây là từ lĩnh vực mô hình cấu trúc kỳ hạn lãi suất. Bạn thấy cách 3 thành phần giải thích hơn 99% tổng phương sai. Điều này có thể trông giống như một ví dụ tạo nên cho quảng cáo PCA :) Tuy nhiên, đây là một điều có thật. Các kỳ hạn lãi suất có nhiều tương quan, đó là lý do tại sao PCA rất tự nhiên trong ứng dụng này. Thay vì đối phó với một vài chục kỳ hạn, bạn xử lý chỉ với 3 thành phần.

nhập mô tả hình ảnh ở đây


Đó là những gì tôi nghi ngờ ở nơi đầu tiên. Tôi đã không chỉ ra điều đó trực tiếp bởi vì tôi không biết nhiều về PCA để đưa ra tuyên bố táo bạo như vậy. Có an toàn không khi nói rằng khi cần nhiều hơn x% các thành phần thì PCA không giúp ích nhiều? Ý tôi là, trong các ví dụ về ứng dụng tôi thấy, thường có ít thành phần giải thích phương sai nhất.
mickkk

@mickkk, không có quy tắc vững chắc. Đối với tôi chỉ thị là độ lồi biểu đồ giải thích phương sai. Nếu bạn vẽ nó dưới dạng phần trăm tích lũy của tổng phương sai được giải thích theo số lượng PC, thì bạn muốn xem biểu đồ rất lõm. Bạn sẽ gần với tuyến tính: mỗi thành phần dường như mang thông tin gần giống nhau về dữ liệu, trong trường hợp này tại sao lại sử dụng PCA thay vì dữ liệu gốc?
Aksakal

Việc chỉnh sửa với ví dụ mới là rất hữu ích.
mickkk

5

Nếu bạn có mẫu và chỉ có dự đoán thì sẽ rất hợp lý nếu chỉ sử dụng tất cả các yếu tố dự đoán trong một mô hình. Trong trường hợp đó, bước PCA có thể không cần thiết.p = 19N>1000p=19

Nếu bạn tự tin rằng chỉ một tập hợp con của các biến là thực sự giải thích, sử dụng mô hình hồi quy thưa thớt, ví dụ: Mạng đàn hồi, có thể giúp bạn thiết lập điều này.

Ngoài ra, việc giải thích kết quả PCA bằng cách sử dụng đầu vào loại hỗn hợp (nhị phân so với thực, các thang đo khác nhau, v.v., xem câu hỏi CV ở đây ) không đơn giản và bạn có thể muốn tránh nó trừ khi có lý do rõ ràng để làm như vậy.


4

Tôi sẽ diễn giải câu hỏi của bạn ngắn gọn nhất có thể. Hãy cho tôi biết nếu nó thay đổi ý nghĩa của bạn.

Tôi khá tự tin rằng 6 trong số các biến dự đoán được liên kết với phản hồi nhị phân [nhưng] Tôi không thấy mẫu nào đáng kể trong pca

Tôi cũng không thấy bất kỳ "mẫu quan trọng" nào, ngoài tính nhất quán trong các cặp của bạn. Tất cả chỉ là những đốm tròn. Tôi tò mò về những gì bạn mong đợi để xem. Rõ ràng tách cụm điểm một số các cặp? Một vài lô rất gần với tuyến tính?

Kết quả PCA của bạn - các cặp ghép đôi và chỉ 85% phương sai được ghi nhận trong 11 thành phần chính hàng đầu - không loại trừ linh cảm của bạn về 6 biến là đủ để dự đoán phản ứng nhị phân.

Hãy tưởng tượng những tình huống này:

  1. Giả sử kết quả PCA của bạn cho thấy 99% phương sai được bắt bởi 6 thành phần chính.

    Điều đó dường như có thể hỗ trợ linh cảm của bạn về 6 biến dự đoán - có thể bạn có thể xác định một mặt phẳng hoặc một bề mặt khác trong không gian 6 chiều đó phân loại các điểm rất tốt và bạn có thể sử dụng bề mặt đó làm công cụ dự đoán nhị phân. Điều này đưa tôi đến số 2 ...

  2. Giả sử 6 thành phần chính hàng đầu của bạn có các cặp giống như thế này

    "Hoa văn" trong cặp.

    Nhưng hãy để mã màu một phản ứng nhị phân tùy ý

    "Hoa văn" là vô dụng.

    Mặc dù bạn đã quản lý để nắm bắt gần như tất cả (99%) phương sai trong 6 biến, bạn vẫn không được đảm bảo có sự phân tách không gian để dự đoán phản ứng nhị phân của bạn.

Bạn thực sự có thể cần một số ngưỡng số (có thể được vẽ như các bề mặt trong không gian 6 chiều đó) và tư cách thành viên của điểm đối với phân loại nhị phân của bạn có thể phụ thuộc vào biểu thức điều kiện phức tạp được tạo từ mối quan hệ của điểm đó với từng ngưỡng đó. Nhưng đó chỉ là một ví dụ về cách dự đoán một lớp nhị phân. Có rất nhiều cấu trúc dữ liệu và phương pháp để đại diện, đào tạo và dự đoán. Đây là một lời trêu ghẹo. Để trích,

Thường thì phần khó nhất trong việc giải quyết vấn đề máy học có thể là tìm ra công cụ ước tính phù hợp cho công việc.


1
Khuôn mặt cười là thực sự tốt, bởi vì nó không tương quan! Tôi thích nó.
amip

@amoeba, bạn có thể có khuôn mặt cười từ PC không tương thích không?
Aksakal

@Aksakal, vâng, âm mưu phân tán nụ cười dường như đối với tôi để thể hiện mối tương quan bằng không. Kdbanman, tôi đánh giá cao bản cập nhật, +1.
amip

@amoeba, ok, ý bạn là tương quan tuyến tính .
Aksakal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.