Dữ liệu rời rạc & các lựa chọn thay thế cho PCA


9

Tôi có một bộ dữ liệu về các biến số rời rạc (thứ tự, thương mại và danh nghĩa) mô tả các ký tự cánh hình thái trên một số loài côn trùng có liên quan chặt chẽ. Những gì tôi đang làm là tiến hành một số loại phân tích sẽ cho tôi một đại diện trực quan về sự giống nhau của các loài khác nhau dựa trên các đặc điểm hình thái. Điều đầu tiên xuất hiện trong đầu tôi là PCA (đây là loại hình ảnh trực quan mà tôi đang tìm cách tạo ra), nhưng sau khi xem xét nó (đặc biệt là các câu hỏi khác như: Phân tích thành phần chính có thể được áp dụng cho các bộ dữ liệu có chứa hỗn hợp liên tục và các biến phân loại?), có vẻ như PCA có thể không phù hợp với dữ liệu rời rạc (PCA được sử dụng trong các loại nghiên cứu này trong tài liệu, nhưng luôn luôn có dữ liệu liên tục). Bỏ qua nền tảng thống kê về lý do tại sao dữ liệu này không phù hợp, PCA cho tôi kết quả tương đối hoàn hảo liên quan đến câu hỏi sinh học của tôi (các nhóm lợi ích lai nằm ngay giữa các nhóm gia đình của họ).

Tôi cũng đã thử nhiều phân tích tương ứng để xoa dịu các số liệu thống kê (ít nhất là theo sự hiểu biết của tôi), nhưng dường như tôi không thể có được một âm mưu tương tự như tôi sẽ nhận được với PCA, nơi tôi quan sát (các cá nhân sinh học) được phân tách bằng màu sắc để hiển thị các nhóm khác nhau (các loài khác nhau, nói về mặt sinh học). Dường như phân tích này nhằm mục đích mô tả làm thế nào các biến (ở đây, đặc điểm hình thái của tôi) có liên quan với nhau, không phải là các quan sát riêng lẻ. Và khi tôi vẽ các quan sát được tô màu theo nhóm, tôi chỉ nhận được một giá trị duy nhất (có thể là trung bình) mô tả toàn bộ tập hợp các cá nhân. Tôi đã thực hiện phân tích trong R, vì vậy có lẽ tôi cũng không đủ hiểu biết về R để làm cho ý tưởng của tôi về cốt truyện hoạt động.

Tôi có đúng không khi thử loại phân tích này với dữ liệu của mình, hay tôi đang lạc lối? Nếu bạn không thể nói, chuyên môn thống kê của tôi bị hạn chế, vì vậy các phương trình xảy ra bên dưới các phân tích này đều nằm trên đầu tôi. Tôi đang cố gắng thực hiện phân tích này một cách mô tả hoàn toàn (tôi không cần phải thực hiện thêm bất kỳ cuộc khủng hoảng số nào nữa) và tôi đã đọc rằng nếu đây là trường hợp, PCA sẽ đủ, nhưng muốn chắc chắn rằng tôi không vi phạm quá nhiều giả định thống kê.


1
Bạn sẽ có thể có được loại cốt truyện bạn muốn với nhiều phân tích tương ứng. Nếu bạn có thể cung cấp cho chúng tôi một liên kết đến dữ liệu của bạn, chúng tôi có thể xem xét. Chia tỷ lệ đa chiều là một khả năng khác, nhưng MCA có thể được coi là một loại tỷ lệ đa chiều
kjetil b halvorsen

Phân cụm lớp tiềm ẩn là một lựa chọn phương pháp khác. Về cơ bản, LCA tạo ra một "mô hình" tính không đồng nhất trong phần dư được sử dụng để phân cụm. Trong lịch sử đã có 2 luồng nghiên cứu rộng lớn trong văn học, cả về xã hội học. LCA ban đầu có từ Lazarsfeld tại Columbia vào những năm 50, không được giám sát và sử dụng dữ liệu phân loại - poLCA của R là một ví dụ về điều này. Các mô hình hỗn hợp hữu hạn được giám sát gần đây cho LCA đã được phát triển. Tôi không biết về các mô-đun R nhưng có phần mềm thương mại rẻ tiền làm điều đó ( Latent Gold ). Trang web của LG có các bài viết hay về LCA
Mike Hunter

Câu trả lời:


1

Nó phụ thuộc một chút vào mục đích của bạn, nhưng nếu bạn là một công cụ trực quan, có một mẹo với việc áp dụng tỷ lệ đa chiều cho đầu ra của vùng lân cận rừng ngẫu nhiên có thể tạo ra những bức ảnh đẹp và sẽ hoạt động cho một hỗn hợp dữ liệu phân loại và liên tục. Ở đây bạn sẽ phân loại các loài theo dự đoán của bạn. Nhưng - và đó là một sự cảnh báo lớn - tôi không biết liệu có ai thực sự biết đầu ra của những hình ảnh này có ý nghĩa gì không.

Một cách khác có thể là áp dụng tỷ lệ đa chiều cho một cái gì đó giống như sự tương tự của Gower.

Có một câu hỏi treo - mục đích cuối cùng của bạn là gì? Câu hỏi nào bạn muốn trả lời? Tôi thích những kỹ thuật này như những công cụ khám phá để có thể khiến bạn hỏi nhiều câu hỏi hay hơn, nhưng tôi không chắc họ tự giải thích hay nói gì với bạn.

Có thể tôi đang đọc quá nhiều vào câu hỏi của bạn, nhưng nếu bạn muốn khám phá biến dự đoán nào có giá trị cho các giống lai nằm giữa hai loài thuần chủng, bạn có thể xây dựng mô hình để ước tính các giá trị cho các biến dự đoán dẫn đến để các loài và các giống lai trực tiếp. Nếu bạn muốn đo lường làm thế nào các biến có liên quan với nhau, có thể xây dựng một ma trận tương quan - và có nhiều hình ảnh trực quan gọn gàng cho việc này.


Cảm ơn bạn đã nhập. Cuối cùng, tất cả những gì tôi muốn từ phân tích này là có một số đo định lượng về sự giống nhau của một số loài so với các loài khác (tôi có hai loài chỉ dựa vào ngoại hình giống như một loài khác, nhưng về mặt di truyền có vẻ giống với một loài khác, gợi ý lai tạo cổ). Điểm chính của câu hỏi nghiên cứu này là điều tra di truyền của nhóm, và phân tích hình thái này sẽ chỉ đơn giản là thêm vào toàn bộ câu chuyện sinh học. Liệu quy mô đa chiều này sẽ dẫn đến hình dung tương tự như PCA?
JD

Bạn có được hình dung tương tự. Ý tưởng / trực giác của MDS là xây dựng ánh xạ từ không gian chiều cao (đối với bạn là không gian của các đặc điểm hình thái) đến một không gian chiều thấp (như mặt phẳng phẳng 2D) sao cho khoảng cách trong không gian chiều cao là "khá nhiều giống như "không gian chiều thấp. Sau đó bạn có thể vẽ mặt phẳng phẳng 2D. Nhưng nó phụ thuộc vào việc lấy số liệu khoảng cách cho không gian chiều cao từ đâu đó.
Patrick Caldon
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.