Phương pháp để hợp nhất / giảm các loại trong dữ liệu thứ tự hoặc danh nghĩa?

14

Tôi đang vật lộn để tìm một phương pháp để giảm số lượng danh mục trong dữ liệu danh nghĩa hoặc thứ tự.

Ví dụ: giả sử tôi muốn xây dựng mô hình hồi quy trên tập dữ liệu có một số yếu tố danh nghĩa và thứ tự. Mặc dù tôi không gặp vấn đề gì với bước này, tôi thường gặp phải tình huống trong đó một tính năng danh nghĩa không có các quan sát trong tập huấn luyện, nhưng sau đó tồn tại trong tập dữ liệu xác nhận. Điều này tự nhiên dẫn đến và lỗi khi mô hình được trình bày với (cho đến nay) các trường hợp không nhìn thấy. Một tình huống khác mà tôi muốn kết hợp các danh mục đơn giản là khi có quá nhiều danh mục với một vài quan sát.

Vì vậy, câu hỏi của tôi là:

Trong khi tôi nhận ra rằng có thể tốt nhất để kết hợp nhiều danh mục (và thứ tự) danh nghĩa dựa trên thông tin cơ bản trong thế giới thực mà họ đại diện, có phương pháp hệ thống ( Rtốt nhất là gói) có sẵn không?
Những hướng dẫn và đề xuất nào bạn sẽ đưa ra về các ngưỡng giới hạn, v.v.
Các giải pháp phổ biến nhất trong văn học là gì?
Có chiến lược nào khác ngoài việc kết hợp các danh mục nhỏ trên danh mục mới, một loại "KHÁC" không?

Xin vui lòng bấm chuông nếu bạn cũng có đề xuất khác.

r categorical-data dimensionality-reduction many-categories

— Hình
nguồn

Có câu hỏi liên quan: stats.stackexchange.com/questions/227125/NH

— kjetil b halvorsen

11

Đây là một câu trả lời cho câu hỏi thứ hai của bạn.

Tôi nghi ngờ chính xác cách tiếp cận cho các loại quyết định này sẽ được xác định chủ yếu bởi các quy tắc kỷ luật và kỳ vọng của đối tượng dự định trong công việc của bạn. Là một nhà khoa học xã hội, tôi thường làm việc với dữ liệu khảo sát (hoặc giống như khảo sát) và tôi luôn cố gắng cân bằng các logic thực tế và dựa trên dữ liệu khi tôi thu gọn thang đo thứ tự hoặc các biến phân loại. Nói cách khác, tôi sẽ làm hết sức mình để xem xét sự kết hợp của các mặt hàng "kết hợp với nhau" về mặt chất của chúng cũng như phân phối các phản hồi trước khi tôi thu gọn các mặt hàng.

Dưới đây là một ví dụ gần đây về câu hỏi khảo sát cụ thể (thứ tự) liên quan đến thang tần số năm điểm:

Bạn có thường xuyên tham dự các cuộc họp của một câu lạc bộ hoặc tổ chức trong cộng đồng của bạn không?

Không bao giờ

Một vài lần một năm

Mỗi tháng một lần

Một vài lần một tháng

Mỗi tuần một lần hoặc nhiều hơn

Hiện tại tôi không có sẵn dữ liệu cho mình, nhưng kết quả bị lệch rất mạnh về phía cuối "không bao giờ" của thang đo. Do đó, đồng tác giả của tôi và tôi đã chọn gộp các câu trả lời thành hai nhóm: "Mỗi tháng một lần trở lên" và "Ít hơn một lần mỗi tháng". Biến kết quả (nhị phân) được phân phối đồng đều hơn và phản ánh sự khác biệt có ý nghĩa về mặt thực tiễn: vì nhiều câu lạc bộ và tổ chức không gặp nhau nhiều hơn một lần mỗi tháng, có những lý do chính đáng để tin rằng những người tham gia các cuộc họp ít nhất thường là thành viên "hoạt động" của các nhóm như vậy trong khi những người tham dự ít thường xuyên hơn (hoặc không bao giờ) thì "không hoạt động".

Vì vậy, theo kinh nghiệm của tôi, những quyết định này ít nhất cũng mang tính nghệ thuật như khoa học. Điều đó nói rằng, tôi cũng thường cố gắng làm điều này trước khi phù hợp với bất kỳ mô hình nào, vì tôi làm việc trong một ngành học, nơi mọi thứ khác được xem (tiêu cực) là khai thác dữ liệu và rất không khoa học (thời gian vui vẻ!).

Với ý nghĩ đó, nó có thể hữu ích nếu bạn có thể nói thêm một chút về loại khán giả mà bạn có trong tâm trí cho tác phẩm này. Bạn cũng nên xem xét một vài cuốn sách giáo khoa phương pháp luận nổi bật trong lĩnh vực của mình vì họ thường có thể làm rõ những gì diễn ra cho hành vi "bình thường" trong một cộng đồng nghiên cứu nhất định.

— tro
nguồn

5

Các loại phương pháp mà ashaw thảo luận có thể dẫn đến một phương pháp tương đối có hệ thống hơn. Nhưng tôi cũng nghĩ rằng bằng hệ thống, bạn có nghĩa là thuật toán. Ở đây các công cụ khai thác dữ liệu có thể lấp đầy một khoảng trống. Đối với một, có quy trình phát hiện tương tác tự động chi bình phương (CHAID) được tích hợp trong mô đun Cây quyết định của SPSS; theo quy tắc do người dùng đặt, có thể thu gọn các danh mục thứ tự hoặc danh nghĩa của các biến dự báo khi chúng hiển thị các giá trị tương tự trên biến kết quả (cho dù đó là liên tục hay danh nghĩa). Các quy tắc này có thể phụ thuộc vào kích thước của các nhóm được thu gọn hoặc được tạo bằng cách thu gọn hoặc vào p-giá trị của các xét nghiệm thống kê liên quan. Tôi tin rằng một số chương trình cây phân loại và hồi quy (GIỎI) có thể làm những điều tương tự. Những người trả lời khác sẽ có thể nói về các chức năng tương tự được thực hiện bởi mạng thần kinh hoặc các ứng dụng khác được cung cấp thông qua các gói khai thác dữ liệu khác nhau.

— rolando2
nguồn

Điểm tuyệt vời, @rolando - vì bài đăng gốc đề cập đến bộ dữ liệu đào tạo và xác thực, tôi nghi ngờ phản hồi của bạn thực sự có thể sử dụng được nhiều hơn cho @Figaro.

— ashaw

Cảm ơn cả hai cho đầu vào có giá trị của bạn. @ rolando2 bạn đúng về từ ngữ mơ hồ của tôi, thuật toán là hướng tôi hướng tới.

— Figaro