Các phương pháp thống kê tôi có thể sử dụng để tìm các kết hợp phổ biến hoặc phổ biến của các biến phân loại là gì?

10

Tôi đang làm một nghiên cứu về việc sử dụng polydrug. Tôi có một bộ dữ liệu gồm 400 người nghiện ma túy, mỗi người tuyên bố các loại thuốc mà họ lạm dụng. Có hơn 10 loại thuốc và do đó có thể kết hợp lớn. Tôi đã mã hóa lại hầu hết các loại thuốc mà chúng tiêu thụ thành các biến nhị phân (ví dụ heroin là 1 nếu một người nghiện ma túy lạm dụng heroin khác 0). Tôi muốn tìm sự kết hợp phổ biến hoặc phổ biến của 2 hoặc 3 loại thuốc. Có phương pháp thống kê mà tôi có thể sử dụng?

— chiếu
nguồn

6

Chỉ có 1024 kết hợp các loại thuốc có thể được sử dụng cùng nhau (nếu chỉ có 10 loại thuốc) giả sử mỗi người dùng đã sử dụng ít nhất 1 loại thuốc. Bạn chỉ có thể chuyển đổi các biến 0/1 của mình thành chuỗi và nối chúng và chạy các phân tích tần số trên chuỗi để xem kết hợp nào bật lên thường xuyên nhất. Lấy một ví dụ về đồ chơi, chỉ có 3 loại thuốc A, B và C trong nghiên cứu của bạn. Nếu một người tham gia sử dụng thuốc A và C, thì biến số alldrugscó thể được mã hóa 101. Một người tham gia chỉ sử dụng thuốc B sẽ được mã hóa 010. Chạy tần số trên những thứ này để tìm ra loại được chọn thường xuyên nhất. Hầu hết các phần mềm sẽ có thể xử lý này trong vài giây.

— Số liệu thống kê
nguồn

1

Đã đồng ý. Chỉ có 400 người nghiện nên 1024 người đó không thể xảy ra.

— Nick Cox

Vâng. Đây nên là một miếng bánh.

— StatsStudent

5

Mô hình hóa lớp tiềm ẩn sẽ là một, phương pháp học tập có giám sát để tìm các phân vùng hoặc nhóm "ẩn" tiềm ẩn hoặc nhóm người sử dụng ma túy. LC là một phương pháp rất linh hoạt với hai cách tiếp cận rộng: sao chép dựa trên các biện pháp lặp đi lặp lại cho một chủ đề duy nhất so với sao chép dựa trên phân loại chéo một tập hợp các biến phân loại. Dữ liệu của bạn sẽ phù hợp với loại thứ hai.

Tính linh hoạt của LC là một chức năng của khả năng hấp thụ "hỗn hợp" các biến có tỷ lệ khác nhau (ví dụ: phân loại hoặc liên tục). Vì cách tiếp cận tìm thấy các phân vùng, phân đoạn hoặc cụm ẩn trong dữ liệu, nên nó cũng có thể được coi là một kỹ thuật giảm kích thước.

Tất cả các mô hình LC có 2 giai đoạn: trong giai đoạn 1, một biến phụ thuộc hoặc biến đích được xác định và mô hình hồi quy được xây dựng. Trong giai đoạn 2, phần dư (một vectơ "tiềm ẩn") từ mô hình giai đoạn 1 được phân tích và các phân vùng được tạo ra nắm bắt sự biến đổi (hoặc không đồng nhất) - "các lớp tiềm ẩn" - trong vectơ đó.

Phần mềm miễn phí hiện có để tải xuống có thể sẽ hoạt động khá tốt cho bạn. Một trong số đó là một mô-đun R được gọi là polCA có sẵn ở đây:

http://www.jstatsoft.org/article/view/v042i10

Nếu bạn có khoảng 1.000 đô la để chi tiêu cho một sản phẩm thương mại, Latent Gold có sẵn từ www.statisticinnovations.com Đã sử dụng trên Vàng tiềm ẩn trong nhiều năm, tôi là một fan hâm mộ lớn của sản phẩm đó vì sức mạnh phân tích và phạm vi giải pháp. Chẳng hạn, polCA chỉ hữu ích cho các mô hình LC có thông tin phân loại trong khi LG hoạt động trên bảng ... cộng với, các nhà phát triển của họ luôn thêm các mô-đun mới. Bổ sung gần đây nhất xây dựng các mô hình LC sử dụng chuỗi Markov ẩn. Nhưng hãy nhớ rằng LG không phải là một nền tảng dữ liệu "đầu cuối", nghĩa là, nó không tốt cho việc thao tác hoặc nâng dữ liệu nặng.

Mặt khác, có rất nhiều cách tiếp cận khác để phân tích thông tin phân loại được hỗ trợ rộng rãi bởi các phần mềm thống kê như R, SPSS, SAS, Python, v.v. Chúng bao gồm phân tích bảng dự phòng, mô hình log-linear, mô hình hỗn hợp hữu hạn, hồi quy kéo căng Bayesian, và như thế. Tài liệu trong lĩnh vực này rất phong phú và bắt đầu với Giám mục, và cộng sự, Phân tích đa biến rời rạc năm 1975, mở rộng thông qua các mô hình RC của Leo Goodman dựa trên công trình của ông được thực hiện từ thập niên 80, Phân tích dữ liệu phân loại của Agresti , sách của Stephen Fienberg và bao gồm Thomas Wickens 'cuốn sách tuyệt vời Phân tích các bảng dự phòng đa ngành cho các ngành khoa học xã hội xuất bản năm 1989. Hồi quy kéo căng Bayesian là tiêu đề của một bài báo của David Dunson tại Duke và là một loại "công nghệ tiên tiến" trong việc trở thành một phương pháp rất gần đây để mô hình hóa các bảng dự phòng đa chiều.

— Mike Hunter
nguồn

thích danh sách các tài liệu tham khảo!

— Chris

3

Điều gì đến với tâm trí của bạn bằng trực giác? Bạn muốn đếm các kết hợp, tại sao không chỉ tìm tất cả các kết hợp có thể và chỉ đơn giản là đếm? Tôi đề nghị bạn xem xét khai thác bộ mục thường xuyên.

Wikipedia - Apriori

Dưới đây là một vài triển khai giống nhau:

Khai thác mẫu tần số

— Harsh Nisar
nguồn