Phân loại so với hồi quy để dự đoán dấu hiệu của biến phản ứng liên tục


8

Nói rằng tôi muốn dự đoán liệu một dự án sẽ có lợi nhuận hay không. Trong dữ liệu mẫu của tôi, biến trả lời thực sự là một biến liên tục: $ lãi / lỗ của dự án.

Bởi vì mục tiêu cuối cùng của tôi chỉ là phân loại nhị phân (dự án có lợi nhuận hoặc dự án không có lợi nhuận), tôi có nên sử dụng kỹ thuật phân loại không? Hoặc tôi nên sử dụng hồi quy để tôi không vứt bỏ thông tin bổ sung mà biến phản hồi liên tục cung cấp?

Câu trả lời:


10

Tôi không thể nghĩ ra một ví dụ mà tôi muốn giới thiệu một kỹ thuật phân loại khi biến là liên tục hoặc thứ tự. Sau khi phù hợp hiệu quả với một mô hình liên tục, bạn có thể sử dụng mô hình đó để ước tính xác suất vượt quá bất kỳ mức độ quan tâm nào. Nếu mô hình là Gaussian thì xác suất này là một hàm của giá trị trung bình dự đoán và độ lệch chuẩn còn lại.Y


4
Một ví dụ (như được lưu ý dưới đây) là nếu chi phí dự đoán không chính xác là như nhau cho tất cả các mức lợi nhuận. I E. khi bạn có một biến liên tục, nhưng bạn thực sự chỉ quan tâm đến các giá trị rời rạc. Một spline với n knots được biến đổi thành biến liên tục có thể đặt nhiều nút trên các giá trị cực trị để điều chỉnh chính xác hình dạng của dữ liệu ở đó, trong khi một spline được tối ưu hóa để phân loại có thể đặt tất cả các nút của nó vào khoảng 0.
Peter

9

Vladimir Vapnik (đồng phát minh ra Máy Vector Hỗ trợ và nhà lý thuyết học tính toán hàng đầu) chủ trương luôn cố gắng giải quyết vấn đề trực tiếp, thay vì giải quyết một số vấn đề chung hơn và sau đó loại bỏ một số thông tin do giải pháp cung cấp. Tôi thường đồng ý với điều này, vì vậy tôi sẽ đề xuất một cách tiếp cận phân loại cho vấn đề như hiện tại. Lý do cho điều này là nếu chúng ta chỉ quan tâm đến việc phân loại một dự án là có lợi nhuận hoặc không có lợi nhuận, thì chúng ta thực sự chỉ quan tâm đến khu vực nơi lợi nhuận là khoảng không. Nếu chúng ta hình thành một mô hình phân loại, đó là nơi chúng ta sẽ tập trung các nguồn lực mô hình hóa của mình. Nếu chúng ta thực hiện phương pháp hồi quy, chúng ta có thể lãng phí tài nguyên mô hình hóa để cải thiện hiệu suất nhỏ cho các dự án sẽ mang lại lợi nhuận cao hoặc không có lợi nhuận, có khả năng phải trả chi phí cải thiện hiệu suất của các dự án biên giới.

Bây giờ lý do mà tôi đã nói "như hiện tại được đặt ra", là rất ít vấn đề thực sự liên quan đến phân loại nhị phân đơn giản, cứng (nhận dạng ký tự quang học có thể là một). Nói chung các loại phân loại sai khác nhau có chi phí khác nhau hoặc tần số lớp vận hành có thể không xác định hoặc biến đổi, v.v ... Trong những trường hợp như vậy, tốt hơn là có một phân loại xác suất, chẳng hạn như hồi quy logistic, thay vì một SVM. Nếu dường như đối với tôi đối với một ứng dụng tài chính, chúng tôi sẽ làm tốt hơn nếu chúng tôi biết xác suất của dự án sẽ có lãi hay không, và nó có khả năng sinh lãi hay không. Chúng tôi có thể sẵn sàng tài trợ cho một dự án có cơ hội sinh lãi nhỏ, nhưng lợi nhuận ồ ạt nên thành công, nhưng không phải là một dự án gần như được đảm bảo để thành công, nhưng sẽ có một mức lợi nhuận nhỏ như vậy mà chúng tôi sẽ tốt hơn hết là chỉ cần dán tiền vào tài khoản tiết kiệm.

Vậy là Frank và Omri374 đều đúng! (+1; o)

EDIT: Để làm rõ lý do tại sao hồi quy có thể không phải luôn luôn là một cách tiếp cận tốt để giải quyết vấn đề phân loại, đây là một ví dụ. Giả sử chúng tôi có ba dự án, với khả năng sinh lời và đối với mỗi dự án, chúng tôi có một biến giải thích mà chúng tôi hy vọng là chỉ ra lợi nhuận, . Nếu chúng tôi thực hiện phương pháp hồi quy (có bù), chúng tôi sẽ nhận được các hệ số hồi quy và (miễn là tôi đã thực hiện tổng hợp chính xác!). Mô hình sau đó dự đoán các dự án mang lại lợi nhuận , vàx =(1,2,10)beta0=-800,8288β1=184,8836 y 1-$616 y 2-$ 431 y 3$1048t =2y= =(-$1000,+$1,+$1000)x= =(1,2,10)β0= =-800.8288β1= =184,8836y^1-$616y^2-$431y^3$1048. Lưu ý rằng dự án thứ hai được dự đoán không chính xác là không có lợi. Mặt khác, nếu chúng ta thực hiện một cách tiếp cận phân loại và thay vào đó là hồi quy trên , chúng ta sẽ nhận được các hệ số hồi quy và , điểm số ba dự án như sau: , và . Vì vậy, một cách tiếp cận phân loại phân loại chính xác dự án 1 là không có lợi và hai cách khác là có lợi nhuận.t= =2*(y> =0)-1β0= =-0,2603β1= =0,1370t^1= =-0,1233t^2= =0,0137t^3= =1.1096

Lý do tại sao điều này xảy ra là một phương pháp hồi quy cố gắng hết sức để giảm thiểu tổng các lỗi bình phương cho mỗi điểm dữ liệu. Trong trường hợp này, SSE thấp hơn có được bằng cách cho phép dự án hai rơi vào phía không chính xác của ranh giới quyết định, để đạt được các lỗi thấp hơn ở hai điểm còn lại.

Vì vậy, Frank đã đúng khi nói rằng phương pháp hồi quy có thể là một cách tiếp cận tốt trong thực tế, nhưng nếu phân loại thực sự là mục đích cuối cùng, có những tình huống có thể thực hiện kém và phương pháp phân loại sẽ hoạt động tốt hơn.


Tôi không thể theo logic đó. Một mô hình phân loại làm suy yếu các mối quan hệ trong dữ liệu và một mô hình liên tục không đòi hỏi nhiều tài nguyên mô hình hóa hơn. Một mô hình liên tục tính đến lợi nhuận $ 1 (mặc dù "có lãi") khác nhiều so với lợi nhuận $ 1B. Mô hình phân loại là một lựa chọn bắt buộc trong đó "không có lựa chọn" (vùng màu xám) không phải là một lựa chọn. Và sự không hiệu quả thống kê của các mô hình nhị phân so với các mô hình liên tục là đáng chú ý. Bạn luôn có thể sử dụng một mô hình liên tục để ước tính Prob khi hoàn thành. [Y>0|X]
Frank Harrell

Việc một mô hình liên tục có cần nhiều tài nguyên hơn mô hình phân loại hay không phụ thuộc vào loại mô hình đó (ví dụ: mô hình mạng thần kinh có thể sử dụng các đơn vị ẩn của nó để mô hình các tính năng gần đường biên giới hoặc nó có thể sử dụng chúng để cải thiện sự phù hợp với đường biên giới) . Điều tương tự cũng đúng với mức độ nhỏ hơn của trọng số của mô hình tuyến tính, trong đó các giá trị được trang bị có thể bị chi phối bởi các điểm đòn bẩy cao không ở gần đường biên giới, có thể là một điều tồi tệ nếu phân loại đơn giản thực sự là điều quan trọng.
Dikran Marsupial

Điểm thứ hai của bạn về lợi nhuận dường như chủ yếu là lý do tại sao tôi mô tả trong đoạn thứ hai của tôi (vấn đề thực sự có lẽ không thực sự là một phân loại cứng đơn giản), đó là lý do tại sao tôi nói cả bạn và omri374 đều đúng.
Dikran Marsupial

"Gần đường biên giới" không xác định đối với một bộ phân loại không được cung cấp các giá trị liên tục . Y
Frank Harrell

Các hệ thống phân loại đã được sử dụng để định vị ranh giới quyết định bằng cách sử dụng các nhãn rời rạc trong một thời gian dài. Bạn đang thiếu điểm, tôi thực sự đồng ý với những gì bạn đã viết, với lời cảnh báo rằng mô hình có thể bị sai lệch bởi các điểm đòn bẩy cao không ở gần ranh giới quyết định, có thể làm giảm hiệu suất nếu phân loại thực sự là mục tiêu ( đó là tương đối hiếm trong thực tế). Tôi đã thấy hiện tượng này trong công việc ứng dụng của tôi trong nhiều năm qua, nhưng tôi vẫn thường sử dụng các mô hình hồi quy để tự giải quyết các vấn đề phân loại. Hỏi giáo sư Vapnik.
Dikran Marsupial

3

Sau khi đọc các bình luận, tôi nghĩ rằng sự khác biệt sau đây là những gì còn thiếu trong cuộc thảo luận:

Làm thế nào để mô hình hóa vấn đề

Điều này không có gì để làm với kỹ thuật sử dụng. Đó là câu hỏi về đầu vào và đầu ra là gì và làm thế nào để đánh giá kết quả.

Nếu bạn thực sự chỉ quan tâm đến việc các dự án của chúng tôi có sinh lãi hay không, và số tiền mà chúng là như vậy là hoàn toàn không liên quan, thì bạn nên mô hình hóa điều này như một vấn đề phân loại. Điều đó có nghĩa là cuối cùng bạn đang tối ưu hóa cho tỷ lệ dự kiến ​​phân loại chính xác (độ chính xác) hoặc AUC. Tối ưu hóa này dịch cái gì phụ thuộc vào kỹ thuật bạn sử dụng.

Tất cả các câu hỏi về lựa chọn mô hình và thuật toán tìm kiếm có thể được tiếp cận theo phương pháp heurist (sử dụng các đối số đã được đưa ra trong các câu trả lời và nhận xét khác) nhưng bằng chứng cuối cùng của pudding là trong việc ăn uống. Dù bạn có mô hình nào, bạn sẽ đánh giá bằng các kiểm tra xác thực chéo về độ chính xác, vì vậy độ chính xác là những gì bạn tối ưu hóa.

Làm thế nào để giải quyết vấn đề

Bạn có thể sử dụng bất kỳ phương pháp nào bạn thích phù hợp với mô hình phân loại. Vì bạn có một biến y liên tục, bạn có thể thực hiện hồi quy trên đó và dịch sang phân loại nhị phân. Điều này có thể sẽ hoạt động tốt. Tuy nhiên, không có gì đảm bảo rằng mô hình hồi quy tối ưu (bằng tổng sai số bình phương hoặc khả năng tối đa hoặc bất cứ điều gì) cũng sẽ cung cấp cho bạn mô hình phân loại tối ưu (theo độ chính xác hoặc AUC).


+1 như một câu châm ngôn chung, tôi đề nghị rằng nhiệm vụ đầu tiên là phải có ý tưởng rõ ràng về vấn đề cần giải quyết và thứ hai là tiếp cận vấn đề bằng phương pháp đưa ra câu trả lời trực tiếp nhất cho câu hỏi thực sự là bị hỏi. Đây là một khái quát nhỏ của câu châm ngôn của LinkedInnik, nhưng chỉ rất nhẹ!
Dikran Marsupial

YY>0

Lưu ý rằng tôi không nói rằng bạn nhất thiết phải vứt bỏ hoặc bỏ qua các giá trị y liên tục. Nhưng có một sự khác biệt giữa việc sử dụng chúng trong một bộ phân loại và tối ưu hóa cho độ chính xác hồi quy (bạn mô hình hóa vấn đề như phân loại, nhưng bạn giải quyết nó bằng hồi quy). Nó có thể là giải pháp tốt nhất của bạn là một phương pháp hồi quy, nhưng bạn nên chứng minh điều này bằng cách đánh giá nó như là một phân loại. Và có những tình huống vứt bỏ các giá trị liên tục và chỉ sử dụng các giá trị rời rạc, sẽ mang lại cho bạn hiệu suất tốt hơn.
Peter

Đánh giá nó như là một bộ phân loại ngụ ý rằng chức năng tiện ích của bạn không liên tục, điều này dường như không thực tế đối với tôi. Nó cũng ngụ ý rằng các quyết định nhị phân là bắt buộc, tức là không có loại "không có quyết định, có thêm dữ liệu". Tôi đã tạo các ví dụ trong đó độ chính xác phân loại đi xuống sau khi thêm một biến rất quan trọng vào mô hình. Vấn đề không nằm ở biến số; đó là với các biện pháp chính xác.
Frank Harrell

Y>0

1

Một mô hình phân loại thường cố gắng giảm thiểu dấu hiệu (lỗi về mặt lớp) và không phải là sai lệch. Ví dụ, trong trường hợp có nhiều ngoại lệ, tôi thích sử dụng mô hình phân loại hơn là mô hình hồi quy.


Điều đó không tuân theo, và sẽ không hiệu quả khủng khiếp. Bạn có thể sử dụng một mô hình liên tục mạnh mẽ bao gồm một mô hình bán tổng thể như mô hình tỷ lệ cược tỷ lệ.
Frank Harrell

0

Tôi sẽ đóng khung vấn đề là giảm thiểu tổn thất. Câu hỏi là chức năng mất thực sự của bạn là gì? Liệu một dự đoán không chính xác về lợi nhuận khi dự án mất 1 đô la có chi phí nhiều như dự đoán lợi nhuận khi dự án mất 1000 đô la ? Trong trường hợp đó, hàm mất mát của bạn thực sự là nhị phân, và tốt hơn hết bạn nên chọn toàn bộ vấn đề là phân loại. Hàm hồi quy có thể vẫn là một trong các phân loại ứng cử viên của bạn, nhưng bạn nên tối ưu hóa nó với hàm mất riêng biệt thay vì liên tục. Nếu bạn có một định nghĩa phức tạp hơn về mất mát, thì bạn nên cố gắng chính thức hóa nó, và xem những gì bạn nhận được nếu bạn lấy đạo hàm.

Thật thú vị, nhiều phương pháp học máy thực sự tối ưu hóa một hàm mất riêng biệt bằng cách xấp xỉ với một hàm liên tục, vì một hàm mất riêng biệt cung cấp độ dốc kém để tối ưu hóa. Vì vậy, cuối cùng bạn có thể sử dụng nó như là một vấn đề phân loại, vì đó là hàm mất của bạn, nhưng sau đó xấp xỉ hàm mất đó với hàm liên tục ban đầu.


[Y>0|X]

Nó thật thú vị. Nhưng ML hoàn toàn không phải là mục tiêu cuối cùng, đó là sự chính xác hoặc AUC. Nếu bạn đang tối ưu hóa khả năng (hoặc SSE), bạn có thể sẽ kết thúc "độ phức tạp của mô hình chi tiêu" trong việc mô hình hóa các tạo phẩm dữ liệu không thành vấn đề. Một mô hình tương đương thực sự có thể làm giảm độ chính xác của mô hình của nó để tập trung vào cải thiện độ chính xác phân loại.
Peter

X

Tôi đồng ý với những hiểu lầm của bạn về AUC. Theo độ chính xác, tôi có nghĩa là tỷ lệ được phân loại chính xác. Tôi đồng ý rằng không chắc rằng người đăng thực sự chỉ quan tâm đến các biến nhị phân và tôi nghi ngờ rằng thực sự số tiền lãi kiếm được đóng một phần nào đó. Nhưng nếu phân loại rời rạc thực sự là mối quan tâm duy nhất, thì tôi không thấy gì khác để tối ưu hóa ngoài một biện pháp phân loại. Và nếu các lớp của bạn thiên vị mạnh mẽ đối với lớp có lợi nhuận thì bỏ qua dữ liệu và luôn phân loại là có lợi nhuận thực sự sẽ là một cơ sở khó đánh bại.
Peter

Tỷ lệ được phân loại chính xác thực hiện thậm chí còn tồi tệ hơn AUC. Nó đã được thể hiện trong văn học ra quyết định của Đức vào những năm 1970 rằng độ chính xác phân loại là một quy tắc chấm điểm không đúng. Nếu phân loại rời rạc là mối quan tâm của bạn, điều đó có thể đạt được ở giây cuối cùng. Bayes quyết định tối ưu sử dụng điều hòa đầy đủ trên tất cả các thông tin có sẵn.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.