Biến chỉ báo cho dữ liệu nhị phân: {-1,1} so với {0,1}


10

Tôi quan tâm đến tương tác xử lý-covariate trong bối cảnh các thí nghiệm / thử nghiệm ngẫu nhiên có kiểm soát, với một nhiệm vụ điều trị chỉ số nhị phân .T

Tùy thuộc vào phương pháp / nguồn cụ thể, tôi đã thấy cả T = { 1 , - 1 } cho các đối tượng được xử lý và không được điều trị, tương ứng.T={1,0}T={1,1}

Có quy tắc nào khi sử dụng hoặc { 1 , - 1 } không?{1,0}{1,1}

Cách giải thích khác nhau như thế nào?


FWIW ... Liên kết đầu tiên này cung cấp một cái nhìn tổng quan khá toàn diện về các sơ đồ mã hóa khác nhau ... ats.ucla.edu/stat/r/l Library / contrast_coding.htmlm Liên kết thứ hai này thảo luận về chỉ báo (giả), hiệu ứng và mã hóa trực giao ... fac Khoa.cas.usf.edu/mbrannick/regression/anova1.html
Mike Hunter

Câu trả lời:


10

Việc giải thích cả hai công cụ ước tính của biến chỉ báo và đánh chặn khác nhau. Hãy bắt đầu với :{1,0}

Giả sử bạn có mô hình sau

yi=β0+treatmentβ1

Ở đâu

treatment={0if placebo1if drug

Trong trường hợp đó, bạn kết thúc với các công thức sau cho :yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

Vì vậy, việc giải thích của là ảnh hưởng của giả dược và việc giải thích β 1 là sự khác biệt giữa ảnh hưởng của giả dược và hiệu quả của thuốc. Trong thực tế, bạn có thể giải thích β 1 như sự cải thiện mà cung cấp ma túy.β0β1β1


Bây giờ hãy xem :{1,1}

Sau đó, bạn có mô hình sau (một lần nữa):

yi=β0+treatmentβ1

nhưng ở đâu

treatment={1if placebo1if drug

Trong trường hợp đó, bạn kết thúc với các công thức sau cho :yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

Giải thích ở đây là là giá trị trung bình của tác dụng của giả dược và tác dụng của thuốc và β 1 là sự khác biệt của hai phương pháp điều trị với nghĩa đó.β0β1


Vậy bạn dùng cái nào?

Việc giải thích trong { 0 , 1 } về cơ bản là một đường cơ sở. Bạn đặt một số điều trị tiêu chuẩn và tất cả các phương pháp điều trị khác (có thể có nhiều phương pháp điều trị) được so sánh với tiêu chuẩn / đường cơ sở đó. Đặc biệt là khi bạn bắt đầu thêm vào các đồng biến khác, điều này vẫn dễ giải thích liên quan đến câu hỏi y khoa tiêu chuẩn: làm thế nào để các thuốc này so sánh với giả dược hoặc thuốc thành lập?β0{0,1}

Nhưng cuối cùng tất cả chỉ là vấn đề giải thích, mà tôi đã giải thích ở trên. Vì vậy, bạn nên đánh giá các giả thuyết của mình và kiểm tra xem diễn giải nào làm cho việc rút ra kết luận đơn giản nhất.


6
Hằng số khi sử dụng mã hóa -1, 1 là giá trị trung bình của số người trả lời trong nhóm được xử lý giống như số người trả lời trong nhóm kiểm soát.
Maarten Buis

@MaartenBuis Đó là ý nghĩa của iff thiết kế được cân bằng, nhưng nếu không nó vẫn là ý nghĩa của hai nhóm nghĩa, đó là ý tôi muốn nói. Tôi đã thay đổi từ ngữ để phản ánh điều này. y
JAD

9
Hữu ích. Tôi luôn cố gắng khuyến khích sử dụng chỉ báo từ hơn là giả (như trong câu hỏi ban đầu!) Vì ít nhất hai lý do. Đầu tiên, tôi đã nghe quá nhiều câu chuyện trong đó các bài thuyết trình đi xuống rất tệ bởi vì các thuật ngữ như "hình nộm giới tính" bị hiểu sai một cách điên cuồng là chê bai hoặc xúc phạm bởi những người ít kỹ thuật hơn. Thứ hai, thuật ngữ giả làm cho toàn bộ thiết bị có vẻ hơi giống như một mánh khóe hoặc né tránh, trong khi đó là một phương pháp hoàn toàn sạch sẽ và thanh lịch. Tôi không có nhiều cơ hội để thay đổi các thực hành cố thủ trong một số lĩnh vực, nhưng đây là cố gắng.
Nick Cox

Đồng ý, nó có vẻ chuyên nghiệp hơn là tốt. Thêm vào đó là một mô tả tốt hơn về những gì nó đang thực sự làm.
JAD

2
Vui mừng bạn đồng ý. Đây là một cách đơn giản để giải thích: nó được gọi là một chỉ báo bởi vì nó chỉ ra!
Nick Cox

6

Trong bối cảnh hồi quy tuyến tính, là phương pháp tự nhiên (và tiêu chuẩn) hơn để mã hóa các biến nhị phân (cho dù đặt chúng ở phía bên trái của hồi quy bên phải). Như @Jarko Dubbeldam giải thích, tất nhiên bạn có thể sử dụng cách hiểu khác và ý nghĩa của các hệ số sẽ khác nhau.xi{0,1}

Để đưa ra một ví dụ theo cách khác, mã hóa các biến đầu ra là tiêu chuẩn khi lập trình hoặc lấy ra các máy vectơ hỗ trợ toán học cơ bản . (Khi gọi thư viện, bạn muốn truyền dữ liệu theo định dạng mà thư viện mong đợi, có thể là công thức 0, 1.)yi{1,1}

Cố gắng sử dụng ký hiệu là tiêu chuẩn cho bất cứ điều gì bạn đang làm / sử dụng.


Đối với bất kỳ loại mô hình tuyến tính nào có thuật ngữ chặn, hai phương thức sẽ tương đương theo nghĩa chúng có liên quan bằng một phép biến đổi tuyến tính đơn giản. Về mặt toán học, không quan trọng bạn sử dụng ma trận dữ liệu hay ma trận dữ liệu ˜ X = X A trong đó A là thứ hạng đầy đủ. Trong mô hình tuyến tính tổng quát, hệ số một trong hai cách ước tính của bạn sẽ được liên quan bởi sự biến đổi tuyến tính Một và các giá trị được trang bị y sẽ giống nhau.XX~=XAAAy^


+1, tôi không thể nghĩ ra một cài đặt trong đó đã được sử dụng. {1,1}
JAD

AdaBoost là một ví dụ khác sử dụng yi{1,1}
Francis

5
{1,1}

@matthewgunn Tác giả đang nói về hiệp phương sai, nghĩa là đầu vào không phải là đầu ra. {-1, 1} có ý nghĩa đối với các vectơ hỗ trợ cho đầu ra nhưng nó không quan trọng đối với đầu vào. Xem tại đây: vi.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Francisco Arceo

@FranciscoArceo Điểm lấy; Tôi đã chỉnh sửa để chính xác hơn.
Matthew Gunn

2

Điều này trừu tượng hơn (và có lẽ là vô dụng), nhưng tôi sẽ lưu ý rằng hai biểu diễn này, theo nghĩa toán học, thực sự là biểu diễn nhóm và có một sự đẳng cấu giữa chúng.

TT1T2T1T2Z21,01,1ab=1(a+b)ab=abϕ(a)=2a1

pTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt


Điều này rất ấn tượng, nhưng tôi thấy đủ để nhận xét rằng bất kỳ sự tương ứng hợp lệ nào giữa {-1, 1} và {0, 1} phải là một đối một: không cần phải gọi bất cứ điều gì ngoài toán học trung học. Chúng ta nhất thiết phải nói về cùng một thông tin, chỉ được mã hóa khác nhau.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.