Phương pháp hình phạt cho dữ liệu phân loại: kết hợp các cấp độ trong một yếu tố


9

Các mô hình được xử lý có thể được sử dụng để ước tính các mô hình trong đó số lượng tham số bằng hoặc thậm chí lớn hơn kích thước mẫu. Tình huống này có thể phát sinh trong các mô hình log-linear của các bảng dữ liệu phân loại hoặc số lượng lớn thưa thớt. Trong các cài đặt này, thường rất mong muốn hoặc hữu ích để thu gọn các bảng bằng cách kết hợp các mức của một yếu tố trong đó các mức đó không thể phân biệt được về cách chúng tương tác với các yếu tố khác. Hai câu hỏi:

  1. Có cách nào để sử dụng các mô hình bị phạt như LASSO hoặc lưới đàn hồi để kiểm tra mức độ sụp đổ của các mức trong mỗi yếu tố không?
  2. Nếu câu trả lời cho câu hỏi đầu tiên là có, có thể và nên, điều này được thiết lập theo cách mà sự sụp đổ của các mức và ước tính các hệ số mô hình xảy ra trong một bước không?

1
Bài viết này, doi.org/10.1177/1471082X16642560 , cung cấp một cái nhìn tổng quan tốt đẹp về những gì đã được thực hiện trong lĩnh vực này trong thập kỷ qua hoặc lâu hơn.
Jorne biccler

1
Lưu ý: hình phạt tôi thảo luận dưới đây là phương trình 3,4 trong liên kết của @JorneBiccler. (Thật thú vị khi thấy rằng câu hỏi này đã được xem xét trước đó!)
user795305


Làm thế nào chúng ta có thể gọi đây là một bản sao cho một câu hỏi trước nó?
Michael R. Chernick

Câu trả lời:


3

Điều đó là có thể. Chúng ta có thể sử dụng một biến thể của Lasso hợp nhất để thực hiện điều này.

Chúng tôi có thể sử dụng công cụ ước tính

β^=argminβ1ni=1n(yiβTxieβTxi)+factors gλg(jg|βj|+12j,kg|βjβk|).

Lưu ý rằng là hàm mất cho log-linear mô hình.1ni=1n(yiβTxieβTxi)

Điều này khuyến khích các hệ số trong một nhóm bằng nhau. Sự bằng nhau của các hệ số này tương đương với việc thu hẹp các mức và của yếu tố này với nhau. Trong trường hợp khi , nó tương đương với việc thu gọn mức với mức tham chiếu. Các tham số điều chỉnh có thể được coi là hằng số, nhưng điều này nếu chỉ có một vài yếu tố, tốt hơn là coi chúng là riêng biệt. k t h β j = 0 j t h λ gjthkthβ^j=0jthλg

Công cụ ước tính là một bộ thu nhỏ của hàm lồi, do đó nó có thể được tính toán hiệu quả thông qua các bộ giải tùy ý. Có thể là nếu một yếu tố có nhiều, nhiều cấp độ, những khác biệt theo cặp này sẽ vượt khỏi tầm tay --- trong trường hợp này, việc biết thêm cấu trúc về các mô hình sụp đổ có thể sẽ là cần thiết.

Lưu ý rằng tất cả điều này được thực hiện trong một bước! Đây là một phần của những gì làm cho công cụ ước tính kiểu Lasso rất tuyệt!


Một cách tiếp cận thú vị khác là sử dụng công cụ ước tính OSCAR, giống như trên, ngoại trừ hình phạt được thay thế bằng .[ β i[11][βiβj]1[βiβj]

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.