Mã hóa một-nóng-đô-la được gọi là gì trong tài liệu khoa học?


10

Tên của toán tử lấy một vectơ phân loại và biến nó thành biểu diễn nhị phân sử dụng mã hóa một nóng là gì? Tôi tự hỏi vì tôi đang viết một bài báo khoa học và cần một cái tên thích hợp cho điều đó.


3
Mã hóa giả là một tên khác. Trong học máy, mọi người chỉ sử dụng một loại đơn giản nên nó khá rõ ràng, nhưng có những loại mã hóa tương phản khác (tên khác) với các loại trừ và các ý tưởng khác, thực hiện vai trò tương tự, được sử dụng trong thống kê, và vì vậy bạn có thể cụ thể hơn một chút
Gijs

7
Trong thống kê và phân tích dữ liệu, rất lâu trước khi học máy, loại mã hóa phân loại này đã được gọi là biến giả hay còn gọi là biến tương phản loại chỉ báo .
ttnphns

Câu trả lời:


18

Các nhà thống kê gọi mã hóa một nóng là mã hóa giả . Như những người khác đã đề xuất (bao gồm Scortchi trong các bình luận), đây không phải là từ đồng nghĩa chính xác, nhưng đây là thuật ngữ thường được sử dụng cho các biến phân loại được mã hóa 0-1.

Xem thêm: "Biến giả" so với "biến chỉ báo" cho dữ liệu danh nghĩa / phân loại


3
Tât nhiên!! Không thể tin rằng tôi đã quên điều đó. Tôi cũng gọi chúng là chỉ số.
Tim Atreides

2
Tôi không nghĩ "mã hóa giả" là một từ đồng nghĩa tốt. Theo nghĩa chung, nó được sử dụng để biểu thị một biến phân loại với một tập hợp các biến số hoặc cho "mã hóa mức tham chiếu" khác với "mã hóa một nóng", ví dụ như trong Các vấn đề với mã hóa một nóng so với mã hóa giả . "Mã hóa có nghĩa là cấp độ" (xem Có thứ gì đó gọi là mã hóa có nghĩa là mã hóa (như mã hóa giả và mã hóa hiệu ứng) trong các mô hình hồi quy không? ) Biểu thị mã hóa một nóng, nhưng có nghĩa là bối cảnh mô hình tuyến tính có lẽ quá ...
Scortchi - Tái tạo Monica

2
... mạnh mẽ cho sử dụng chung.
Scortchi - Phục hồi Monica

3
Tôi chưa bao giờ thấy một định nghĩa mỗi se, nhưng với tôi các biến giả trong thống kê luôn ngụ ý mã hóa các yếu tố N với các biến (N-1) trong khi mã hóa một nóng sẽ mã hóa các yếu tố N với N biến. Sự khác biệt này là rất quan trọng trong thực tế. Nếu một người sử dụng mã hóa một nóng cho hồi quy, người ta sẽ trở nên vô nghĩa vì sự phụ thuộc của các biến!
meh

2
@aginensky Mặc dù mọi người chắc chắn nên chú ý đến chính xác những biến số họ có, một thói quen hồi quy tốt sẽ không tạo ra vô nghĩa trong tình huống đó: nó sẽ chỉ bỏ qua một yếu tố dự đoán và nói với bạn như vậy.
Nick Cox

8

Nó phụ thuộc vào đối tượng mục tiêu của bạn.

Như Tim đã nói, các nhà thống kê gọi nó là mã hóa giả, và đó là những gì tôi sẽ thấy khi mô tả một cái gì đó giống như mô hình hồi quy. "Các biến được mã hóa giả được đưa vào để điều chỉnh vị trí của cửa hàng." Tôi nghĩ rằng gọi nó là một mã hóa nóng có vẻ hơi lạ ở đây.

Tuy nhiên, như một Tim khác cũng đã nói, mã hóa một nóng là khá phổ biến trong máy học văn học. Nó ngụ ý một cách mờ nhạt sự tồn tại của các nút (như trong một mạng lưới thần kinh), các dây vật lý (trong một thiết bị) hoặc một cái gì đó tương tự, ít nhất là với tôi.

Chính thức, tôi đoán bạn đang áp dụng một tập hợp các hàm chỉ thị , nhưng điều đó có lẽ quá chính thức bên ngoài một bằng chứng.IX


6

Thuật ngữ này xuất phát từ kỹ thuật điện tử. Chỉ cần nghĩ rằng ai sẽ gọi 1 "nóng"? Chỉ những người làm việc với điện, nơi "nóng" hoặc "sống" có nghĩa là có tiềm năng điện trên dây . "Một nóng" đề cập đến thiết kế mạch trong đó mức tín hiệu điện rời rạc trên một dây sẽ được giải mã thành nóng / lạnh trên một bộ dây. Tôi cho rằng một số người học máy với nền EE đã tìm thấy sự hấp dẫn tương tự.

Trong kinh tế lượng và thống kê bạn có thể gặp phải dummyhoặc indicatorcác biến, khá giống nhau vì chúng được sử dụng để thể hiện các danh mục riêng biệt với các chỉ số riêng biệt của chúng. Có một sự khác biệt tinh tế mặc dù. Chẳng hạn, bạn tạo các hình nộm K-1 cho các loại K, vì loại cơ sở tương ứng với tất cả các hình nộm được đặt thành 0. Ngược lại, tôi nghĩ rằng trong một mã hóa nóng, bạn có dây K, trong đó loại cơ sở sẽ có dây riêng ( Biến đổi).


5

Tôi được đào tạo thống kê và gần đây đã nghe nói về "mã hóa một nóng" trong học máy / comp sci lit. Tôi thường chỉ gọi ma trận một góc là ma trận thiết kế / ma trận dữ liệu / khung thiết kế.


Bạn có một tài liệu tham khảo mà tôi có thể trích dẫn cho điều đó? Tôi đang viết một ấn phẩm khoa học và muốn làm rõ về phương pháp này cho tất cả các độc giả vì bài viết không dành cho cộng đồng ML mà rộng hơn.
gãy xương

Không thể nói tôi từng nghe "một tiếng" như một động từ. Nhưng tôi cũng đi đến điều này từ một hướng toán học / thống kê. (Google kết quả trên "một hotted" rất thú vị -. Tôi nhận được một hỗn hợp của máy học ý nghĩa và nhân dân nói về "một chiếc xe hotted-up")
Michael Lugo

3

Trong khoa học vật lý và kỹ thuật, nó được gọi là đồng bằng Kronecker (tổng quát) .

Ở dạng đơn giản nhất, đồng bằng Kroneker được định nghĩa là started mặc dù điều này được khái quát hóa một cách tầm thường thành

δi,j{1ifi=j0else,
δ[condition]{1if[condition]0else.

Vì vậy, " " sẽ có xu hướng được đọc là hầu hết các tác giả sẽ có xu hướng cắt ngắn thành " ", nếu danh mục rõ ràng từ ngữ cảnh.δicategory

δicategory{1ificategory0else,
δi

Đồng bằng Kronecker thực sự hữu ích trong Sigma / Pi / Einstein / v.v. ký hiệu vì nó cho phép các điều khoản được chỉ định có điều kiện.

Chỉ cần liên hệ điều này với các cấu trúc lập trình phổ biến, đồng bằng Kronecker condition?1:0, ?:toán tử có điều kiện .


Là một lưu ý tiếp tuyến, tôi khuyến khích các tác giả từ bỏ để ủng hộ tương đương tổng quát, . Không có lợi thế cho ký hiệu thời trang cũ, trong khi ký hiệu tổng quát thì rõ ràng và mở rộng hơn.δi,jδi=j


Tôi không thấy liên kết ở đây. Một nóng giải mã một biến thành một tập hợp cho mỗi trạng thái của biến. Kronecker delta được sử dụng trong ứng dụng này như thế nào?
Aksakal

@Aksakal Bài đăng này đưa ra ví dụ về mã hóa danh mục " CompanyName " với các giá trị có thể " VW ", " Acura " và " Honda ", trở thành ba biến theo các tên giá trị đó, trong đó câu trả lời của @ Tim gọi đó là "các biến giả". Đây là những điều tương tự như Kronecker deltas , và . {0,1}δVWδAcuraδHonda
Nat

@Aksakal Tôi thích ký hiệu tổng quát, nhưng trong ký hiệu cũ, , nó sẽ là , v.v. .δi,jδCompanyName,VW
Nat

Hình nộm hoạt động như thế này: bạn có các biến được gọi là và . Các quan sát của bạn là , vì vậy bạn nhận được các giá trị và , cả hai đều bằng 0 khi xe là HONDA. Lưu ý, ở đây không phải là người tạo ra chiếc xe, đó là số lượng quan sát. Tôi vẫn không thấy làm thế nào để bạn kết nối điều này với đồng bằng Kronecker. Giả sử, nếu biến ban đầu là , thì delta sẽ hoạt động nhưVWACURAi=1..NVWiACURAiiCARiVWi=δ(CARi,VW)
Aksakal

@Aksakal Giá trị mà bạn đang gọi " " là hoặc . Nếu là một chiếc VW, thì nó sẽ là ; mặt khác, nó là . δ VW i δ i VW i10VWiδVWiδiVWi10
Nat

2

Pattern Recognition và Machine Learning bởi Christopher ĐGM sử dụng thuật ngữ -of- đề án.K1K

Đây là một trích dẫn từ cuốn sách,

Biến nhị phân có thể được sử dụng để mô tả các đại lượng có thể lấy một trong hai giá trị có thể. Tuy nhiên, thông thường, chúng ta gặp phải các biến rời rạc có thể đảm nhận một trong những trạng thái loại trừ lẫn nhau có thể có củaMặc dù có nhiều cách khác nhau để biểu thị các biến như vậy, nhưng chúng ta sẽ sớm thấy rằng một biểu diễn đặc biệt thuận tiện là sơ đồ - trong đó biến được biểu thị bằng một vectơ -chiều trong đó một trong các các phần tử bằng và tất cả các phần tử còn lại bằng . Vì vậy, ví dụ nếu chúng ta có một biến có thể lấy1 K K x x k 1 0 K = 6 x 3 = 1 xK1KKxxk10K=6trạng thái và một quan sát cụ thể của biến xảy ra tương ứng với trạng thái trong đó , sau đó sẽ được biểu diễn bởi,x3=1x

x=(0,0,1,0,0,0)T

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.