Chuyển đổi dữ liệu văn bản thành các thể loại. Bạn có thể thử các lựa chọn thay thế khác nhau để biết có bao nhiêu thông tin mà các danh mục nên chứa, nhưng các danh mục cụ thể phải tồn tại cho mỗi biến. Ví dụ, tôi sẽ giả sử một biến xuất phát từ trường văn bản của bảng câu hỏi khảo sát liên quan đến cách mọi người thích hợp hơn để đi làm.
Đầu tiên, chúng ta cần đảm bảo rằng các câu trả lời có ý nghĩa tương tự được viết trên cùng một cách và thuộc cùng một loại (ví dụ: "bằng xe đạp", "đi xe đạp", "bằng xe đạp" đều có cùng một nghĩa). Sau đó, bạn có thể thử hợp nhất thêm vào các danh mục ít chi tiết hơn (ví dụ: hợp nhất "xe điện", "tàu điện ngầm" và "xe buýt" thành "Phương tiện giao thông công cộng") hoặc thậm chí nhiều hơn (ví dụ: "Đi bộ", "Chạy bộ", "Đi xe đạp" vào " Hoạt động thể chất ") tùy thuộc vào những gì bạn đang cố gắng tìm hiểu.
Bạn thậm chí có thể đặt một số kết hợp khác nhau trong tập dữ liệu của mình và sau đó các bước tiếp theo sẽ xác định những kết hợp nào sẽ được sử dụng để phân tích. Trong trường hợp dữ liệu văn bản có thể được "dịch" theo các biến được sắp xếp, hãy đảm bảo bạn làm điều này (ví dụ: nếu bạn có "nhỏ, trung bình, cao" hãy chuyển đổi nó thành "1,2,3").
Principal Component Analysis
hoặcNon-Negative Matrix Factorization
sẽ giảm số lượng biến, làm phong phú dữ liệu thưa thớt và chuyển đổi tất cả các biến thành định lượng. Hơn nữa, đánh giá chất lượng của mô hình giảm kích thước, tác giả câu hỏi có thể ước tính tính hữu ích của các biến văn bản.