Sáng tạo so với phân biệt đối xử


153

Tôi biết rằng khái quát có nghĩa là "dựa trên " và phương tiện phân biệt đối xử "dựa trên ", nhưng tôi bị nhầm lẫn về một số điểm:P(x,y)P(y|x)

  • Wikipedia (+ nhiều lượt truy cập khác trên web) phân loại những thứ như SVM và cây quyết định là phân biệt đối xử. Nhưng những điều này thậm chí không có giải thích xác suất. Phân biệt đối xử ở đây có nghĩa là gì? Có phân biệt đối xử chỉ có nghĩa là bất cứ điều gì không phải là khái quát?

  • Naive Bayes (NB) mang tính khái quát vì nó thu được và , và do đó bạn có (cũng như ). Không phải là tầm thường khi thực hiện hồi quy logistic (cậu bé áp phích của các mô hình phân biệt đối xử) bằng cách tính toán theo cách tương tự (giả định độc lập tương tự như NB, sao cho , trong đó MLE cho chỉ là tần số)?P(x|y)P(y)P(x,y)P(y|x)P(x)P(x)=P(x0)P(x1)...P(xd)P(xi)

  • Tôi biết rằng các mô hình phân biệt đối xử có xu hướng tốt hơn so với các mô hình thế hệ. Sử dụng thực tế của làm việc với các mô hình thế hệ là gì? Có thể tạo / mô phỏng dữ liệu được trích dẫn, nhưng khi nào thì điều này xuất hiện? Cá nhân tôi chỉ có kinh nghiệm với hồi quy, phân loại, collab. lọc qua dữ liệu có cấu trúc, vì vậy việc sử dụng không liên quan đến tôi ở đây? Đối số "dữ liệu bị thiếu" ( cho thiếu ) dường như chỉ cung cấp cho bạn một lợi thế với dữ liệu đào tạo (khi bạn thực sự biết và không cần phải vượt qua để có được sự ngu ngốc tương đối mà bạn có thể ước tính trực tiếp bằng mọi cách) và thậm chí sau đó việc cắt bỏ linh hoạt hơn nhiều (có thể dự đoán không chỉ dựa trênP(xi|y)xiyP(y)P(xi)ynhưng khác cũng vậy).xi

  • Điều gì với những trích dẫn hoàn toàn trái ngược từ Wikipedia? "Các mô hình tạo ra thường linh hoạt hơn các mô hình phân biệt trong việc thể hiện sự phụ thuộc trong các nhiệm vụ học tập phức tạp" so với "các mô hình phân biệt nói chung có thể biểu thị mối quan hệ phức tạp hơn giữa các biến mục tiêu và biến quan sát"

Câu hỏi liên quan khiến tôi suy nghĩ về điều này.


5
(1) Tôi nghĩ rằng thuật ngữ rất khó hiểu, và tôi nghĩ về một mô hình của như là sinh sản cho việc phân phối có điều kiện trái ngược với SVM, nói, rằng chỉ có mô hình các khía cạnh của phân phối có điều kiện này trong một hoàn toàn phân biệt đối xử mục đích. Như dấu đầu dòng thứ hai của bạn cho thấy, một mô hình có thể được tăng cường để trở thành một mô hình hoàn toàn tổng quát. Sự khác biệt có liên quan từ quan điểm học tập bởi vì chúng ta có thể mô hình và tính toán hoặc chúng ta có thể mô hình . P(y|x)P(y|x)P(x,y)P(y|x)P(y|x)
NRH

2
Tôi không nghĩ rằng tuyên bố của bạn về SVM là đúng: "Nhưng những điều này thậm chí không có những diễn giải xác suất." Bất cứ điều gì có chức năng mất có thể được giải thích rõ ràng theo nghĩa xác suất bằng cách tìm cấu hình MAP của một tệp PDF phù hợp.
gmatt

Câu trả lời:


135

Sự khác biệt cơ bản giữa mô hình phân biệt đối xử và mô hình thế hệ là:

  • Các mô hình phân biệt học tìm hiểu ranh giới (cứng hoặc mềm) giữa các lớp
  • Mô hình tạo mô hình phân phối các lớp riêng lẻ

Để trả lời câu hỏi trực tiếp của bạn:

  • Các SVM và cây quyết định là phân biệt đối xử vì chúng học các ranh giới rõ ràng giữa các lớp. SVM là một trình phân loại lề tối đa, có nghĩa là nó học một ranh giới quyết định tối đa hóa khoảng cách giữa các mẫu của hai lớp, được cung cấp một kernel. Khoảng cách giữa một mẫu và ranh giới quyết định đã học có thể được sử dụng để biến SVM thành phân loại "mềm". DT tìm hiểu ranh giới quyết định bằng cách phân vùng đệ quy không gian theo cách tối đa hóa mức tăng thông tin (hoặc một tiêu chí khác).

  • Có thể thực hiện một hình thức hồi quy logistic theo cách này. Lưu ý rằng bạn không sử dụng mô hình tổng quát đầy đủ để đưa ra quyết định phân loại.

  • Có một số lợi thế mô hình thế hệ có thể cung cấp, tùy thuộc vào ứng dụng. Giả sử bạn đang xử lý các phân phối không cố định, trong đó dữ liệu kiểm tra trực tuyến có thể được tạo bởi các phân phối cơ bản khác với dữ liệu đào tạo. Thông thường sẽ đơn giản hơn để phát hiện các thay đổi phân phối và cập nhật mô hình tổng quát phù hợp hơn là thực hiện điều này cho ranh giới quyết định trong một SVM, đặc biệt nếu các bản cập nhật trực tuyến cần phải được giám sát. Các mô hình phân biệt đối xử cũng thường không hoạt động để phát hiện ngoại lệ, mặc dù các mô hình thế hệ thường làm. Tất nhiên, những gì tốt nhất cho một ứng dụng cụ thể nên được đánh giá dựa trên ứng dụng.

  • (Trích dẫn này bị sai lệch, nhưng đây là những gì tôi nghĩ nó đang cố gắng nói) Các mô hình tạo thường được chỉ định là mô hình đồ họa xác suất, cung cấp các biểu diễn phong phú về quan hệ độc lập trong tập dữ liệu. Các mô hình phân biệt đối xử không cung cấp các biểu diễn rõ ràng về mối quan hệ giữa các tính năng và các lớp trong bộ dữ liệu. Thay vì sử dụng các tài nguyên để mô hình hóa đầy đủ từng lớp, họ tập trung vào mô hình hóa phong phú ranh giới giữa các lớp. Với cùng một dung lượng (giả sử, các bit trong chương trình máy tính thực hiện mô hình), do đó, một mô hình phân biệt đối xử có thể mang lại các biểu diễn phức tạp hơn về ranh giới này so với mô hình tổng quát.


Một nhận xét tầm thường: ranh giới giữa các cụm càng khó khăn hơn để vẽ / hiểu / đo lường khi tăng. Do đó, ví dụ k-clustering, được xem như một mô hình phân biệt đối xử, trở nên ồn ào và đặc biệt. (Ví dụ: so sánh chính trị trong hệ thống 2 đảng so với 5 đảng ở Đức). (k2)kk
chối

63

(câu trả lời của hamner là tuyệt vời, vì vậy chỉ cần đăng chéo câu trả lời của tôi từ MetaOptizing để hoàn thiện.)

Tôi nghĩ rằng các thuật toán tổng quát là cung cấp một mô hình về cách dữ liệu thực sự được tạo ra (tôi nghĩ chúng là một mô hình cho cả và , thay vì , mặc dù tôi đoán nó tương đương) và các thuật toán phân biệt đối xử chỉ đơn giản là cung cấp các phân chia phân loại (và không nhất thiết phải theo cách xác suất).P(X|Y)P(Y)P(X,Y)

So sánh, ví dụ, các mô hình hỗn hợp Gaussian và phân cụm k-mean. Trước đây, chúng ta có một mô hình xác suất đẹp về cách tạo điểm (chọn một thành phần với xác suất nào đó, sau đó phát ra một điểm bằng cách lấy mẫu từ phân phối Gaussian của thành phần), nhưng chúng ta không thể nói gì về điểm sau.

Lưu ý rằng các thuật toán tổng quát có các thuộc tính phân biệt, vì bạn có thể nhận được một khi bạn có và (theo Định lý Bayes), mặc dù các thuật toán phân biệt đối xử không thực sự có các đặc tính tổng quát.P(Y|X)P(X|Y)P(Y)

1: Thuật toán phân biệt đối xử cho phép bạn phân loại điểm, mà không cung cấp mô hình về cách các điểm thực sự được tạo. Vì vậy, đây có thể là một trong hai:

  • các thuật toán xác suất cố gắng học (ví dụ: hồi quy logistic);P(Y|X)
  • hoặc các thuật toán không có xác suất cố gắng tìm hiểu ánh xạ trực tiếp từ các điểm đến các lớp (ví dụ: perceptron và SVM chỉ đơn giản cung cấp cho bạn một siêu phẳng tách biệt, nhưng không có mô hình tạo điểm mới).

Vì vậy, có, phân loại phân biệt đối xử là bất kỳ phân loại không phải là thế hệ.

Một cách nghĩ khác về điều này là các thuật toán tổng quát tạo ra một số loại giả định cấu trúc trên mô hình của bạn , nhưng các thuật toán phân biệt đối xử tạo ra ít giả định hơn. Ví dụ: Naive Bayes giả định tính độc lập có điều kiện đối với các tính năng của bạn, trong khi hồi quy logistic ("đối tác" phân biệt đối xử của Naive Bayes) thì không.

2: Có, Naive Bayes mang tính khái quát vì nó bắt được và . Ví dụ: nếu chúng ta biết rằng và , cùng với xác suất từ ​​tiếng Anh và tiếng Pháp, thì bây giờ chúng ta có thể tạo một tài liệu mới bằng cách trước tiên chọn ngôn ngữ của tài liệu ( Tiếng Anh có xác suất 0,7, tiếng Pháp có xác suất 0,3) và sau đó tạo từ theo xác suất từ ​​của ngôn ngữ đã chọn.P(X|Y)P(Y)P(Y=English)=0.7P(Y=French)=0.3

Vâng, tôi đoán bạn có thể tạo ra hồi quy logistic theo kiểu đó, nhưng chỉ vì bạn đang thêm một cái gì đó vào hồi quy logistic chưa có ở đó. Đó là, khi bạn thực hiện phân loại Naive Bayes, bạn đang trực tiếp tính toán (các thuật ngữ ở bên phải, và , là những gì cho phép bạn tạo một tài liệu mới); nhưng khi bạn tính toán theo hồi quy logistic, bạn không tính toán hai điều này, bạn chỉ đang áp dụng một hàm logistic cho một sản phẩm chấm.P(Y|X)P(X|Y)P(Y)P(X|Y)P(Y)P(Y|X)

3: Các mô hình tạo thường vượt trội hơn các mô hình phân biệt đối xử trên các bộ dữ liệu nhỏ hơn vì các giả định chung của chúng đặt một số cấu trúc trên mô hình của bạn ngăn chặn quá mức . Ví dụ: chúng ta hãy xem xét Naive Bayes so với hồi quy logistic. Giả định Naive Bayes dĩ nhiên hiếm khi được thỏa mãn, do đó hồi quy logistic sẽ có xu hướng vượt trội so với Naive Bayes khi dữ liệu của bạn tăng lên (vì nó có thể nắm bắt được các phụ thuộc mà Naive Bayes không thể). Nhưng khi bạn chỉ có một bộ dữ liệu nhỏ, hồi quy logistic có thể thu được các mẫu giả không thực sự tồn tại, vì vậy Naive Bayes hoạt động như một loại công cụ chính quy trên mô hình của bạn để ngăn chặn quá mức. Có một bài viết của Andrew Ng và Michael Jordan về phân loại phân biệt đối xử và thế hệ nói về điều này nhiều hơn.

4: Tôi nghĩ điều đó có nghĩa là các mô hình thế hệ thực sự có thể tìm hiểu cấu trúc cơ bản của dữ liệu nếu bạn xác định chính xác mô hình của mình và mô hình thực sự nắm giữ, nhưng các mô hình phân biệt có thể vượt trội hơn trong trường hợp các giả định chung của bạn không được thỏa mãn (vì các thuật toán phân biệt ít ràng buộc với một cấu trúc cụ thể và thế giới thực rất lộn xộn và các giả định hiếm khi được thỏa mãn hoàn hảo dù sao đi nữa). (Có lẽ tôi sẽ bỏ qua những trích dẫn này nếu chúng gây nhầm lẫn.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.