Học máy: Tôi nên sử dụng một entropy chéo phân loại hoặc mất entropy chéo nhị phân cho dự đoán nhị phân?

36

Trước hết, tôi nhận ra nếu tôi cần thực hiện dự đoán nhị phân, tôi phải tạo ít nhất hai lớp thông qua thực hiện mã hóa một nóng. Điều này có đúng không? Tuy nhiên, có phải entropy chéo nhị phân chỉ dành cho dự đoán chỉ có một lớp không? Nếu tôi sử dụng một mất mát entropy chéo phân loại thường được tìm thấy trong hầu hết các thư viện (như TensorFlow), liệu có sự khác biệt đáng kể?

Trong thực tế, sự khác biệt chính xác giữa một entropy chéo phân loại và nhị phân là gì? Tôi chưa bao giờ thấy việc thực hiện entropy chéo nhị phân trong TensorFlow vì vậy tôi nghĩ có lẽ phân loại này hoạt động tốt như vậy.

— infomin101
nguồn

1

Ví dụ về phân loại nhị phân: machinelearningmastery.com/... và đa đẳng cấp phân loại: machinelearningmastery.com/...

— user1367204

@ user1367204: Liên kết đến chuyển hướng phân loại nhiều lớp sang phân loại nhị phân. Nó phải là một này .

— dùng3389669

51

Mất ngẫu nhiên chéo entropy là một trường hợp đặc biệt của mất entropy chéo đa cực cho . $m=2$

\begin{aligned} L (θ) & = = - \frac{1}{n} Σ_{tôi = = 1}^{n} [y_{tôi} đăng nhập (p_{tôi}) + (1 - y_{tôi}) đăng nhập (1 - p_{tôi})] \\ = = - \frac{1}{n} Σ_{tôi = = 1}^{n} Σ_{j = = 1}^{m} y_{tôi j} đăng nhập (p_{tôi j}) \end{aligned}

$\begin{align} \mathcal{L}(\theta) &= -\frac{1}{n}\sum_{i=1}^n \left[y_i \log(p_i) + (1-y_i) \log(1-p_i)\right] \\ &= -\frac{1}{n}\sum_{i=1}^n\sum_{j=1}^m y_{ij} \log(p_{ij}) \end{align}$

Trong đó lập chỉ mục các mẫu / quan sát và các lớp chỉ mục và là nhãn mẫu (nhị phân cho LSH, vectơ một nóng trên RHS) và là dự đoán cho một mẫu. $i$ $j$ $y$ $p_{ij}\in(0,1):\sum_{j} p_{ij} =1\forall i,j$

— Sycorax nói phục hồi Monica
nguồn

3

Có nghĩa là miễn là tôi sử dụng 2 lớp trong một mất mát entropy chéo đa cực, về cơ bản tôi đang sử dụng một mất entropy chéo nhị phân?

— infomin101

2

@leekwotsin yup

— Sycorax nói Phục hồi Monica

17

Entropy chéo nhị phân là dành cho phân loại nhiều nhãn, trong khi entropy chéo phân loại là dành cho phân loại nhiều lớp trong đó mỗi ví dụ thuộc về một lớp duy nhất.

— Henok S Mạnhistu
nguồn

3

Biện minh cho tuyên bố của bạn là gì? Tại sao bạn không sử dụng entropy chéo phân loại để phân loại nhiều nhãn?

— michal

Điều gì nếu có nhiều nhãn, mỗi nhãn chứa nhiều lớp?

— slizb

1

Đây là những gì chính xác tôi muốn nghe, nhưng không phải những gì ông chủ của tôi muốn nghe. Một chút giải thích sẽ rất tuyệt vời.

— Aditya

2

Tôi nghĩ có ba loại nhiệm vụ phân loại:

Phân loại nhị phân: hai lớp độc quyền
Phân loại nhiều lớp: nhiều hơn hai lớp độc quyền
Phân loại nhiều nhãn: chỉ các lớp không độc quyền

Từ những điều này, chúng ta có thể nói

Trong trường hợp (1), bạn cần sử dụng entropy chéo nhị phân.
Trong trường hợp (2), bạn cần sử dụng entropy chéo phân loại.
Trong trường hợp (3), bạn cần sử dụng entropy chéo nhị phân. Bạn chỉ có thể coi bộ phân loại đa nhãn là bộ phân loại nhị phân riêng biệt. Nếu bạn có 10 lớp ở đây, bạn có 10 phân loại nhị phân riêng. Mỗi phân loại nhị phân được đào tạo độc lập. Vì vậy, chúng tôi có thể sản xuất nhiều nhãn cho mỗi mẫu. Nếu bạn muốn đảm bảo ít nhất một nhãn phải được mua, thì bạn có thể chọn nhãn có chức năng mất phân loại thấp nhất hoặc sử dụng các số liệu khác.

Tôi muốn nhấn mạnh rằng phân loại nhiều lớp không giống với phân loại đa nhãn ! Thay vào đó, trình phân loại đa nhãn mượn một ý tưởng từ trình phân loại nhị phân!

— jeongmin.cha
nguồn