Sự khác biệt giữa hồi quy logistic và perceptron là gì?


30

Tôi sẽ thông qua bài giảng Andrew Ng của ghi chú trên Machine Learning.

Các ghi chú giới thiệu cho chúng ta về hồi quy logistic và sau đó là perceptron. Trong khi mô tả Perceptron, các ghi chú nói rằng chúng ta chỉ thay đổi định nghĩa của hàm ngưỡng được sử dụng cho hồi quy logistic. Sau khi làm điều đó, chúng ta có thể sử dụng mô hình Perceptron để phân loại.

Vì vậy, câu hỏi của tôi là - nếu điều này cần được chỉ định và chúng tôi coi Perceptron là một kỹ thuật phân loại, vậy chính xác thì hồi quy logistic là gì? Là chỉ được sử dụng để có được xác suất của một điểm dữ liệu thuộc về một trong các lớp?


Câu hỏi hay, tôi thấy rằng điều rất quan trọng là làm thế nào bạn bắt đầu giải thích về NN, đặc biệt là vì NN có thể rất phức tạp để hiểu, xin vui lòng. xem xét câu trả lời của tôi
prosti

Câu trả lời:


22

Nói tóm lại, hồi quy logistic có ý nghĩa xác suất vượt ra ngoài việc sử dụng phân loại trong ML. Tôi có một số lưu ý về hồi quy logistic ở đây .

Giả thuyết trong hồi quy logistic cung cấp một thước đo về sự không chắc chắn khi xảy ra kết quả nhị phân dựa trên mô hình tuyến tính. Đầu ra được giới hạn bất đối xứng giữa 01 , và phụ thuộc vào mô hình tuyến tính, sao cho khi đường hồi quy cơ bản có giá trị 0 , phương trình logistic là 0.5=e01+e0 , cung cấp điểm cắt tự nhiên cho mục đích phân loại. Tuy nhiên, đó là phải trả giá bằng cách ném các thông tin xác suất trong kết quả thực tế củah(ΘTx)=eΘTx1+eΘTx , mà thường là thú vị (ví dụ như khả năng thu nhập mặc định cho vay nhất định, điểm tín dụng, tuổi tác, vv).

Thuật toán phân loại perceptron là một thủ tục cơ bản hơn, dựa trên các sản phẩm chấm giữa các ví dụtrọng lượng . Bất cứ khi nào một ví dụ bị phân loại sai, dấu hiệu của sản phẩm chấm là mâu thuẫn với giá trị phân loại ( 11 ) trong tập huấn luyện. Để sửa lỗi này, vectơ ví dụ sẽ được lặp lại hoặc trừ đi khỏi vectơ trọng số hoặc hệ số, cập nhật dần dần các phần tử của nó:

dx

1dθixi>theshold

h(x)=sign(1dθixitheshold)1101

+θ0

h(x)=sign(0dθixi)h(x)=sign(θTx)

sign(θTx)ynΘxnynyn


Tôi đã nghiên cứu về sự khác biệt giữa hai phương pháp này trong một tập dữ liệu từ cùng một khóa học , trong đó kết quả kiểm tra trong hai kỳ thi riêng biệt có liên quan đến việc chấp nhận cuối cùng vào đại học:

sign()10

90%

nhập mô tả hình ảnh ở đây


Mã được sử dụng là ở đây .


5

Có một số nhầm lẫn có thể phát sinh ở đây. Ban đầu một perceptron chỉ đề cập đến các mạng thần kinh với chức năng bước là chức năng chuyển. Trong trường hợp đó, tất nhiên sự khác biệt là hồi quy logistic sử dụng hàm logistic và perceptron sử dụng hàm step. Nói chung, cả hai thuật toán sẽ mang lại ranh giới quyết định giống nhau (ít nhất là đối với một tri giác nơron). Tuy nhiên:

  1. Vectơ tham số cho perceptron có thể được thu nhỏ tùy ý so với vectơ xuất phát từ hồi quy logistic. Bất kỳ tỷ lệ nào của vectơ tham số sẽ xác định cùng một ranh giới, nhưng xác suất được tính bằng hồi quy logistic phụ thuộc vào tỷ lệ chính xác.
  2. Tất nhiên đầu ra từ một hàm bước có thể không được hiểu là bất kỳ loại xác suất nào.
  3. Do hàm bước không khác biệt, nên không thể đào tạo một tri giác bằng cách sử dụng cùng các thuật toán được sử dụng cho hồi quy logistic.

Trong một số trường hợp, thuật ngữ perceptron cũng được sử dụng để chỉ các mạng thần kinh sử dụng chức năng logistic làm chức năng chuyển giao (tuy nhiên, điều này không phù hợp với thuật ngữ gốc). Trong trường hợp đó, hồi quy logistic và "perceptron" hoàn toàn giống nhau. Tất nhiên, với một perceptron, có thể sử dụng nhiều nơ-ron tất cả bằng cách sử dụng hàm truyền logistic, điều này trở nên hơi liên quan đến việc sắp xếp hồi quy logistic (không giống nhau, nhưng tương tự).


2

Bạn có thể sử dụng hồi quy logistic để xây dựng một perceptron. Hồi quy logistic sử dụng chức năng logistic để xây dựng đầu ra từ một đầu vào nhất định. Hàm logistic tạo ra một đầu ra mượt mà trong khoảng từ 0 đến 1, vì vậy bạn cần thêm một điều nữa để biến nó thành một trình phân loại, đó là một ngưỡng. Perceptionron có thể được xây dựng với các hình thức chức năng khác, tất nhiên, không chỉ là hậu cần .

y(x1,x2|b)=eb0+b1x1+b2x21+eb0+b1x1+b2x2
b1,b2,b3ex1+ex

y(x|b)xbyYy~=0y(x|b)<Yy~=1y(x|b)Y


1

Cả hai đều áp dụng hồi quy bằng cách ước tính các tham số của cùng một mô hình biến đổi logistic. Theo các thuộc tính của các hàm lồi, các giá trị của các tham số sẽ giống như bất kỳ cách nào bạn chọn để ước tính chúng. Để trích dẫn bản thân từ một câu trả lời trước:

Hồi quy logistic mô hình một hàm của giá trị trung bình của phân phối Bernoulli dưới dạng phương trình tuyến tính (giá trị trung bình bằng với xác suất p của sự kiện Bernoulli). Bằng cách sử dụng liên kết logit như là một hàm của giá trị trung bình (p), logarit của tỷ lệ cược (tỷ lệ cược log) có thể được suy ra một cách phân tích và được sử dụng như là phản ứng của mô hình tuyến tính tổng quát. Trên đầu trang, điều này cho phép bạn diễn giải mô hình theo suy luận nguyên nhân. Đây là điều mà bạn không thể đạt được với Perceptron tuyến tính.

Perceptron, lấy hàm logit (logistic) nghịch đảo của wx và không sử dụng các giả định xác suất cho cả mô hình và tham số của nó. Đào tạo trực tuyến sẽ cung cấp cho bạn các ước tính chính xác cho các trọng số / tham số mô hình, nhưng bạn sẽ không thể giải thích chúng theo suy luận nguyên nhân do thiếu giá trị p, khoảng tin cậy và mô hình xác suất cơ bản.


1

x1,,xNRny1,,yN{1,1}1xi

(1)minimize1Ni=1Nmax(yiβTxi,0).
βRn+1

Hàm mục tiêu trong bài toán (1) có thể được viết là , trong đó Một phần phụ của tại là vectơ Mỗi epoch của hậu duệ ngẫu nhiên ngẫu nhiên (với kích thước bước ) quét qua các quan sát đào tạo và, đối với quan sát thứ , thực hiện cập nhật 1Nii(β)

i(β)=max(yiβTxi,0).
iβ
g={0if yiβTxi0(so yi and βTxi have the same sign)yixiotherwise.
t>0)i
ββtg={βif yi and βTxi have the same signβ+tyixiotherwise.
Chúng tôi nhận ra rằng đây là phép lặp cho thuật toán perceptron (với tốc độ học tập ).t


0

Andrew Ng đã sử dụng thuật ngữ "hồi quy logistic" như một mô hình để giải quyết vấn đề phân loại nhị phân.

Như bạn có thể thấy trong bài báo , ông thực sự không bao giờ vẽ mô hình chính nó.

Hãy để tôi thêm một vài chi tiết vào thùng để bạn có thể tìm thấy lý do về cách tôi nghĩ rằng ông đã xây dựng các bài giảng.

Mô hình được sử dụng cho "hồi quy logistic" là một nhận thức cấp độ duy nhất với số lượng đầu vào tùy chỉnh và một đầu ra nằm trong khoảng từ 0 đến 1.

Trở lại năm 90, chức năng kích hoạt được đánh giá cao nhất là chức năng kích hoạt sigmoidal, và có một lý thuyết toán học tuyệt vời như một bản sao lưu.

Đây chính xác là mô hình mà Andrew Ng đang sử dụng vì hàm đó nằm trong khoảng từ 0 đến 1.

Cũng là đạo hàm s'(x) = s(x)(1−s(x)), đâu s(x)là hàm kích hoạt sigmoidal.

Đối với chức năng lỗi, anh ta sử dụng L2, mặc dù trong một số giấy tờ, anh ta có thể sử dụng một số chức năng khác cho việc đó.

Vì vậy, để tóm tắt lại, khi xem xét "hồi quy logistic" chỉ cần xem xét nhận thức cấp độ duy nhất với chức năng kích hoạt sigmoidal, số lượng đầu vào tùy chỉnh và đầu ra duy nhất.


Chỉ cần một vài lưu ý: Không có gì sai với chức năng kích hoạt sigmoidal, mặc dù đối với số học dấu phẩy động, ReLU thống trị các lớp ẩn hiện nay, nhưng trong tương lai gần (hoặc một số đơn vị số học khác) có thể đưa chức năng kích hoạt sigmoidal trở lại bảng .

Cá nhân, tôi sẽ sử dụng mô hình đơn giản hơn với chức năng ReLU để giải thích SLP (perceptionron cấp đơn) vì ngày nay nó được sử dụng nhiều hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.