Tôi có một bộ dữ liệu về các biến số rời rạc (thứ tự, thương mại và danh nghĩa) mô tả các ký tự cánh hình thái trên một số loài côn trùng có liên quan chặt chẽ. Những gì tôi đang làm là tiến hành một số loại phân tích sẽ cho tôi một đại diện trực quan về sự giống nhau của các loài khác nhau dựa trên các đặc điểm hình thái. Điều đầu tiên xuất hiện trong đầu tôi là PCA (đây là loại hình ảnh trực quan mà tôi đang tìm cách tạo ra), nhưng sau khi xem xét nó (đặc biệt là các câu hỏi khác như: Phân tích thành phần chính có thể được áp dụng cho các bộ dữ liệu có chứa hỗn hợp liên tục và các biến phân loại?), có vẻ như PCA có thể không phù hợp với dữ liệu rời rạc (PCA được sử dụng trong các loại nghiên cứu này trong tài liệu, nhưng luôn luôn có dữ liệu liên tục). Bỏ qua nền tảng thống kê về lý do tại sao dữ liệu này không phù hợp, PCA cho tôi kết quả tương đối hoàn hảo liên quan đến câu hỏi sinh học của tôi (các nhóm lợi ích lai nằm ngay giữa các nhóm gia đình của họ).
Tôi cũng đã thử nhiều phân tích tương ứng để xoa dịu các số liệu thống kê (ít nhất là theo sự hiểu biết của tôi), nhưng dường như tôi không thể có được một âm mưu tương tự như tôi sẽ nhận được với PCA, nơi tôi quan sát (các cá nhân sinh học) được phân tách bằng màu sắc để hiển thị các nhóm khác nhau (các loài khác nhau, nói về mặt sinh học). Dường như phân tích này nhằm mục đích mô tả làm thế nào các biến (ở đây, đặc điểm hình thái của tôi) có liên quan với nhau, không phải là các quan sát riêng lẻ. Và khi tôi vẽ các quan sát được tô màu theo nhóm, tôi chỉ nhận được một giá trị duy nhất (có thể là trung bình) mô tả toàn bộ tập hợp các cá nhân. Tôi đã thực hiện phân tích trong R, vì vậy có lẽ tôi cũng không đủ hiểu biết về R để làm cho ý tưởng của tôi về cốt truyện hoạt động.
Tôi có đúng không khi thử loại phân tích này với dữ liệu của mình, hay tôi đang lạc lối? Nếu bạn không thể nói, chuyên môn thống kê của tôi bị hạn chế, vì vậy các phương trình xảy ra bên dưới các phân tích này đều nằm trên đầu tôi. Tôi đang cố gắng thực hiện phân tích này một cách mô tả hoàn toàn (tôi không cần phải thực hiện thêm bất kỳ cuộc khủng hoảng số nào nữa) và tôi đã đọc rằng nếu đây là trường hợp, PCA sẽ đủ, nhưng muốn chắc chắn rằng tôi không vi phạm quá nhiều giả định thống kê.