Biến số Dummy của người khác

"Biến giả" và "biến chỉ báo" là các thuật ngữ được sử dụng thường xuyên để mô tả tư cách thành viên trong danh mục có mã hóa 0/1; thường là 0: Không phải là thành viên của thể loại, 1: Thành viên của thể loại.

Vào ngày 26/11/2014, một tìm kiếm nhanh trên scholar.google.com (có dấu ngoặc kép kèm theo) cho thấy "biến giả" được sử dụng trong khoảng 318.000 bài viết và "biến chỉ báo" được sử dụng trong khoảng 112.000 bài viết. Thuật ngữ "biến giả" cũng có ý nghĩa trong toán học phi thống kê về " biến bị ràng buộc " có khả năng góp phần vào việc sử dụng nhiều hơn "biến giả" trong các bài viết được lập chỉ mục.

Các câu hỏi liên quan đến chủ đề của tôi:

Có phải những thuật ngữ này luôn đồng nghĩa (trong số liệu thống kê)?
Các thuật ngữ này có bao giờ được chấp nhận áp dụng cho các hình thức mã hóa phân loại khác (ví dụ mã hóa hiệu ứng , mã hóa Helmert, v.v. ) không?
Những lý do thống kê hoặc kỷ luật là có để thích một thuật ngữ khác?

categorical-data terminology categorical-encoding

— Alexis
nguồn

Tôi có xu hướng sử dụng "biến chỉ báo" cho các điều kiện nhị phân, ví dụ: giới tính có thể được mã hóa như malevới các giá trị 1hoặc 0. Nếu có một biến phân loại có nhiều hơn 2 loại sau đó được mở rộng thành các biến chỉ báo cho tư cách thành viên ở mỗi cấp, tôi sẽ sử dụng "biến giả" để mô tả tập hợp các biến chỉ báo đó.

— Gregor --reinstate Monica--

Tôi nghĩ bạn có nghĩa là tình dục có thể được mã hóa thành 1 hoặc 0, giới tính là một cấu trúc phức tạp hơn nhiều. (đối với vấn đề đó, tình dục cũng có thể phức tạp hơn);)

— Alexis

điểm tốt, được chỉnh sửa để sex.

— Gregor --reinstate Monica--

Tôi có xu hướng gọi một biến chỉ báo như vậy male, trong đó 1 có nghĩa là đúng (trong trường hợp này là nam) và 0 có nghĩa là sai (trong trường hợp này là nữ). Nếu tôi sử dụng tên biến sextôi sẽ phải tìm cách tôi mã hóa biến đó mỗi khi tôi trở lại tập dữ liệu đó.

— Maarten Buis

Tôi đã nghe nhiều câu chuyện khác nhau về "biến giả" một cách điên cuồng và không may bị hiểu sai bởi những khán giả phi kỹ thuật là ngụ ý coi thường hoặc chê bai. Họ đã lúng túng và đủ sức thuyết phục để khiến tôi chống lại điều khoản. "Chỉ số" là với tôi rõ ràng và đơn giản.

— Nick Cox

Câu trả lời:

Tôi muốn nói "biến giả" là một cách tổng quát hơn để chỉ (một trong) biến số đại diện cho (cùng đại diện) một công cụ dự đoán phân loại; do đó, thuật ngữ này cũng áp dụng cho những thuật ngữ được sử dụng trong mã hóa Helmert & hiệu ứng ^† . Điều đó chủ yếu do việc sử dụng chung của "hình nộm" có nghĩa là "độc lập". "Biến chỉ báo" Tôi liên quan đến các hàm chỉ báo ^{‡ Các} số chỉ có thể là một hoặc bằng 0 để biểu thị có hoặc không có một số thuộc tính; do đó, thuật ngữ này chỉ áp dụng cho những thuật ngữ được sử dụng trong mã hóa mức tham chiếu ^※ . Tất nhiên một số người sử dụng "mã hóa giả" có nghĩa là "mã hóa mức tham chiếu"; họ có lẽ có một định nghĩa hạn chế hơn về "các biến giả", hoặc ở bất kỳ tỷ lệ nào phải có.

† Và nếu bạn không gọi những "núm vú cao su", những gì làm bạn gọi cho họ?

Vì vậy, ví dụ: hình nộm là biến chỉ báo khi người thứ là nam (thành viên của tập ): $x_i$ $i$ $u_i$ $M$

x_{i} = 1_{M} (u_{i}) = {\begin{cases} 1 & w h e n u_{i} \in M \\ 0 & w h e n u_{i} \notin M \end{cases}

$x_i=\boldsymbol{1}_\mathrm{M}(u_i)=\left\{ \begin{array}{l l} 1 & \mathrm{when}\ u_i \in M\\ 0 & \mathrm{when}\ u_i \notin M\\ \end{array}\right.$

$\boldsymbol{1}_M(\cdot)$ $M$

※ Hoặc, như @gung đã chỉ ra, mã hóa có nghĩa là cấp độ.

— Scortchi - Tái lập Monica
nguồn

Hả ... bạn có thể cung cấp liên kết đến một số tài nguyên thúc đẩy điều đó không? Theo kinh nghiệm của tôi, "biến giả" được sử dụng cho 0/1 mã hóa rất nhiều. Không chắc chắn tôi đã thấy hình nộm được sử dụng như bạn đề xuất, và biết những người khác sử dụng nó theo nghĩa ngược lại. Ví dụ, Alkharusi, H. (2012) "Các biến phân loại trong phân tích hồi quy: So sánh mã hóa giả và hiệu ứng" Tạp chí giáo dục quốc tế 4 (2): 202 Phản210.

— Alexis

Tôi đã không nói "biến giả" không được sử dụng cho mã 0/1, chỉ là nó có thể được sử dụng theo nghĩa chung hơn.

— Scortchi - Khôi phục Monica

Thật vậy, chính bài báo mà bạn trích dẫn đã nói rằng, bằng cách sử dụng mã hóa hiệu ứng, "các biến giả sẽ lấy các giá trị 1, 0 và -1". (Tất nhiên tôi nghĩ họ nên gọi là "mã hóa giả" một cái gì đó khác nếu họ định nói điều đó.)

— Scortchi - Tái lập Monica

Có ya ... như câu hỏi từ siêu ký tự của bạn, tôi có xu hướng gọi chúng là "biến phân loại sử dụng mã hóa XXX".

— Alexis

Điểm được Knuth đưa ra tốt nhất trong arxiv.org/abs/math/9205211 Ông gán ý tưởng cho KE Iverson. Nói tóm lại, chúng ta không cần phải phát minh hoặc gọi một hàm chỉ thị mà theo dõi trong cuộc thảo luận chính thức những gì phần mềm của chúng ta làm cho chúng ta.

— Nick Cox

@Scortchi đã cung cấp một câu trả lời tốt ở đây. Hãy để tôi thêm một điểm nhỏ. Ngay cả khi sử dụng định nghĩa chặt chẽ hơn của biến chỉ báo, điều này vẫn có thể được liên kết với (ít nhất) hai sơ đồ mã hóa khác nhau cho dữ liệu phân loại trong mô hình kiểu hồi quy: viz. mã hóa mức tham chiếu và cấp độ có nghĩa là mã hóa $k$ $k$ $1$ ) Khi chỉ có một biến phân loại duy nhất, điều này mang lại đầu ra mô hình theo cách đơn giản và có thể được một số người ưa thích. (Đối với một ví dụ nơi sử dụng chương trình này tạo điều kiện so sánh quan tâm, xem câu trả lời của tôi ở đây: Tại sao các giá trị ước lượng từ một xuất sắc nhất tuyến tính thiên vị Predictor (BLUP) khác với một xuất sắc nhất tuyến tính thiên vị Estimator (BLUE)? )

— gung - Phục hồi Monica
nguồn