Tại sao hồi quy logistic được gọi là thuật toán học máy?


19

Nếu tôi hiểu chính xác, trong thuật toán học máy, mô hình phải học hỏi từ kinh nghiệm của nó, tức là khi mô hình đưa ra dự đoán sai cho các trường hợp mới, nó phải thích ứng với các quan sát mới và theo thời gian, mô hình ngày càng tốt hơn . Tôi không thấy rằng hồi quy logistic có đặc điểm này. Vậy tại sao nó vẫn được coi là một thuật toán học máy? Sự khác biệt giữa hồi quy logistic với hồi quy bình thường trong thuật ngữ "học tập" là gì?

Tôi có cùng một câu hỏi cho các khu rừng ngẫu nhiên!

Và định nghĩa của "máy học" là gì?


4
Tôi đã chỉnh sửa câu hỏi của bạn cho rõ ràng về ngữ pháp, nhưng không chắc ý của bạn nói chung là gì ... Hồi quy logistic thuộc ML vì đây là thuật toán phân loại. Machine Learning không ngụ ý rằng thuật toán phải thích ứng (mặc dù có những thuật toán học từ những quan sát mới). Thích ứng là một lựa chọn thực hiện, thường đạt được bằng các thuật toán học máy tổng quát mô hình xác suất chung.
Zhubarb

12
"Học máy" là một khái niệm khá lỏng lẻo. Thực sự, tất cả các quy trình thống kê liên quan đến việc phù hợp với một mô hình có thể được nghĩ đến của máy học. (Giả sử việc lắp mô hình có thể được thực hiện bằng máy tính, ở một mức độ nào đó!). Đây là lý do tại sao một số nhà thống kê cảm thấy thất vọng với "dữ liệu lớn", "học máy", v.v. cộng đồng làm vấy bẩn vùng biển về số liệu thống kê là gì (và không!)
P.Windridge


1
@ P.Windridge: nếu "tất cả các quy trình thống kê liên quan đến việc phù hợp với một mô hình có thể được nghĩ đến về học máy" thì tôi không hiểu tại sao chúng ta nên phân biệt học máy và thống kê
Metariat

4
@XuanQuangDO Có lẽ chúng ta không nên phân biệt học máy và thống kê.
Sycorax nói Phục hồi lại

Câu trả lời:


21

Machine Learning không phải là một thuật ngữ được xác định rõ.

Trên thực tế, nếu bạn Google "Định nghĩa học máy", hai điều đầu tiên bạn nhận được khá khác nhau.

Từ WhatIs.com ,

Học máy là một loại trí tuệ nhân tạo (AI) cung cấp cho máy tính khả năng học mà không cần lập trình rõ ràng. Học máy tập trung vào sự phát triển của các chương trình máy tính có thể dạy bản thân phát triển và thay đổi khi tiếp xúc với dữ liệu mới.

Từ Wikipedia ,

Học máy khám phá việc xây dựng và nghiên cứu các thuật toán có thể học hỏi và đưa ra dự đoán về dữ liệu.

Hồi quy logistic chắc chắn phù hợp với định nghĩa Wikipedia và bạn có thể tranh luận liệu nó có phù hợp với định nghĩa WhatIs hay không.

Cá nhân tôi định nghĩa Machine Learning giống như Wikipedia và coi nó là một tập hợp con của thống kê.


1
Tôi đồng ý với hầu hết những gì bạn nói, ngoại trừ đó là một tập hợp con của thống kê. Nó có sự chồng chéo lớn, nhưng có những kiểu học tập, chẳng hạn như học tăng cường, mà thực sự không thể được coi là một tập hợp con của thống kê.
George

2
Đây không phải là nguồn tốt.
Neil G

@George Đúng, nhưng hãy đối mặt với nó, nếu bạn phải áp dụng một nhãn tất cả các phương pháp thu thập, phân tích và mô hình hóa dữ liệu, cho dù đó là học máy, giám sát hay không giám sát, tham số hay không tham số, tất cả đều là thống kê. ML là một lĩnh vực chuyên ngành trong thống kê.
RobertF

@RobertF Tôi không đồng ý. Học máy là lĩnh vực nghiên cứu cách máy móc có thể học. Tôi đồng ý rằng hầu hết các phương thức được sử dụng trong ML có thể được coi là phương pháp thống kê, nhưng trường không phải là một trường con của thống kê. Ví dụ, tôi không nghĩ các quy trình quyết định của Markov được coi là phương pháp thống kê.
George

1
@George Mô hình Markov thời gian rời rạc là mô hình xác suất. Khi bạn ước tính các tham số chưa biết của mô hình xác suất (ví dụ: quy trình quyết định Markov), đó là định nghĩa trong sách giáo khoa của quy trình thống kê. Tôi nghĩ rằng lớp hoạt động chính có thể được gọi là ML và không thống kê là các ứng dụng cụ thể, như xây dựng một robot chơi cờ vua. Các thuật toán cơ bản chắc chắn sẽ liên quan đến xác suất và thống kê, nhưng ứng dụng không thực sự là "thống kê". Kiểu như nghiên cứu bộ gen sử dụng số liệu thống kê rất nhiều, nhưng chúng là các lĩnh vực quyết định khác nhau.
ahfoss

20

Machine Learning là nóng và là nơi có tiền. Mọi người gọi những thứ họ đang cố gắng bán bất cứ thứ gì đang nóng vào lúc này và do đó "bán". Đó có thể là bán phần mềm. Đó có thể là bán mình khi các nhân viên hiện tại đang cố gắng thăng tiến, làm nhân viên tương lai, làm tư vấn viên, v.v. Đó có thể là một người quản lý đang cố gắng lấy ngân sách từ một công ty bigwig để thuê người và mua công cụ, hoặc thuyết phục các nhà đầu tư đầu tư vào khởi động mới nóng hổi của anh ấy / cô ấy, đó là Machine Learning là chìa khóa để tạo ra một ứng dụng sexting cải tiến. Vì vậy, phần mềm học Machine Machine và mọi người là chuyên gia về Machine Learning, vì đó là những gì hấp dẫn và do đó, những gì bán ... ít nhất là bây giờ.

Tôi đã làm tất cả các loại mô hình thống kê tuyến tính và phi tuyến phù hợp hơn 30 năm trước. Nó không được gọi là Machine Learning. Bây giờ, hầu hết sẽ là.

Giống như mọi người và chú họ giờ là "Nhà khoa học" dữ liệu. Thật hấp dẫn, được cho là gợi cảm, vì vậy đó là những gì mọi người tự gọi mình. Và đó là những gì các nhà quản lý tuyển dụng phải được ngân sách chấp thuận để thuê một người nào đó liệt kê các vị trí như. Vì vậy, một người không biết điều đầu tiên về toán học, xác suất, thống kê, tối ưu hóa hoặc tính toán số / dấu phẩy động, sử dụng gói R hoặc Python về tính chính xác đáng ngờ và độ mạnh của việc triển khai và được gắn nhãn là thuật toán Machine Learning, để áp dụng cho dữ liệu họ không hiểu và tự gọi mình là Nhà khoa học dữ liệu dựa trên kinh nghiệm của họ khi làm như vậy.

Điều này nghe có vẻ thiếu sót, nhưng tôi tin rằng đó là bản chất của tình huống.

Chỉnh sửa: Sau đây đã được tweet vào ngày 26 tháng 9 năm 2019:

https://twitter.com/daniela_witten/status/1177294449702928384

Daniela Witten @daniela_witten "Khi chúng tôi kiếm được tiền, đó là AI, khi chúng tôi thuê nó học máy và khi chúng tôi thực hiện công việc đó là hồi quy logistic."

(Tôi không chắc ai đã nghĩ ra điều này nhưng đó là viên ngọc)


16
Tôi sẽ không che giấu rằng tôi chia sẻ một số ý kiến ​​này và thông cảm với phần còn lại. Tuy nhiên, để chúng phù hợp như một câu trả lời trên trang SE, chúng cần có một số loại hỗ trợ. Rõ ràng điều đó sẽ không thông qua lý luận suy diễn: nó phải đến từ việc bổ sung các sự kiện và / hoặc trích dẫn các nguồn có thẩm quyền. Sẽ thật tuyệt nếu bạn có thể làm điều đó!
whuber

10
Dễ dàng là bài viết thú vị nhất mà tôi đã đọc ngày hôm nay trên trang web này, và tôi đồng ý với phần lớn của nó. Nhưng tôi phải đồng ý với @whuber rằng nó không thực sự trả lời câu hỏi ở dạng hiện tại.
Nick Cox

6
Như một sự làm rõ nhỏ. Tôi làm việc trong cả phát triển phần mềm và "Khoa học dữ liệu" sai. Tôi phỏng vấn rất nhiều người. Tỷ lệ người phỏng vấn cho các vị trí phát triển phần mềm và vị trí khoa học dữ liệu không có kỹ năng để thực hiện công việc là như nhau. Vậy điều gì đặc biệt về tiêu đề khoa học dữ liệu? Mọi người sẽ tăng cường kỹ năng của họ trong tất cả các ngành kỹ thuật. Tôi chắc rằng trao đổi ngăn xếp lập trình có nhiều khiếu nại tương tự.
Matthew Drury

7
Điều này cảm thấy giống như một lời nói hơn là một câu trả lời. Chắc chắn, tên thay đổi, thương hiệu là quan trọng và học máy là nóng (và do đó có nhiều học viên tự xưng không biết họ đang làm gì). Tuy nhiên, sử dụng điều đó như một lý lẽ để hạ thấp một lĩnh vực đã được thiết lập và có liên quan cao trong cả nghiên cứu và công nghiệp có vẻ rẻ đối với tôi.
Marc Claesen

7
@ MarkL.Stone Tôi hiểu tình huống của bạn và tôi hoàn toàn đồng ý rằng có rất nhiều thuật ngữ nóng bỏng không đủ năng lực ở đây . Tuy nhiên, theo tôi thực tế những người như vậy tìm được (và giữ!) Là lỗi của quản lý. Nếu các nhà quản lý không hài lòng với kết quả của các nhà phân tích và đối xử với tất cả các nhà phân tích như nhau bất kể kỹ năng / kết quả cá nhân, thì quản lý cũng không đủ năng lực như các nhà phân tích tồi. Bất kỳ công việc nào có mùi hương của tiền mặt đều có quẻ, hãy dùng thuốc chẳng hạn. Quét khái quát về các nhà khoa học dữ liệu / những người học máy cũng tệ như không tin tưởng tất cả các nhà phân tích.
Marc Claesen

18

Như những người khác đã đề cập, không có sự tách biệt rõ ràng giữa thống kê, học máy, trí tuệ nhân tạo, v.v. hãy lấy bất kỳ định nghĩa nào với một hạt muối. Hồi quy logistic có lẽ thường được gắn nhãn là thống kê hơn là học máy, trong khi các mạng thần kinh thường được gắn nhãn là học máy (mặc dù các mạng thần kinh thường chỉ là một tập hợp các mô hình hồi quy logistic).

Theo tôi, máy học nghiên cứu các phương pháp có thể bằng cách nào đó học được từ dữ liệu, điển hình là bằng cách xây dựng một mô hình ở một số hình dạng hoặc hình thức. Hồi quy logistic, như SVM, mạng lưới thần kinh, rừng ngẫu nhiên và nhiều kỹ thuật khác, học từ dữ liệu khi xây dựng mô hình.

Nếu tôi hiểu chính xác, trong thuật toán Machine Learning, mô hình phải học hỏi từ kinh nghiệm của nó

Đó không thực sự là cách học máy thường được định nghĩa. Không phải tất cả các phương pháp học máy đều mang lại các mô hình tự động thích ứng với dữ liệu mới (trường con này được gọi là học trực tuyến ).

Sự khác biệt giữa hồi quy logistic với hồi quy bình thường trong thuật ngữ "học tập" là gì?

Nhiều phương pháp hồi quy cũng được phân loại là học máy (ví dụ: SVM).


2
Lưu ý rằng học tập không giám sát vẫn được gọi là học (máy), do đó bạn không nhất thiết phải có bất kỳ vòng phản hồi nào để phân loại một cái gì đó là "học máy".
vsz

Đây không phải là chủ đề cho câu hỏi, nhưng câu trả lời này cũng đề cập đến sự tách biệt giữa AI và ML. Tôi luôn thích định nghĩa này về AI: en.wikipedia.org/wiki/ Kẻ
Davis Yoshida

10

Hồi quy logistic được phát minh bởi nhà thống kê DR Cox vào năm 1958 và do đó, đi trước lĩnh vực học máy. Hồi quy logistic không phải là một phương pháp phân loại, cảm ơn lòng tốt. Đó là một mô hình xác suất trực tiếp.

Nếu bạn nghĩ rằng một thuật toán phải có hai giai đoạn (dự đoán ban đầu, thì "sửa" "lỗi" dự đoán)) hãy xem xét điều này: Hồi quy logistic sẽ làm đúng ngay từ lần đầu tiên. Đó là, trong không gian của các mô hình phụ gia (trong logit). Hồi quy logistic là đối thủ cạnh tranh trực tiếp của nhiều phương pháp học máy và vượt trội so với nhiều phương pháp khi các yếu tố dự đoán chủ yếu hành động phụ gia (hoặc khi kiến ​​thức chủ đề chính xác định trước các tương tác). Một số người gọi hồi quy logistic là một kiểu học máy nhưng hầu hết thì không. Bạn có thể gọi một số phương pháp học máy (mạng thần kinh là ví dụ) mô hình thống kê.


1
Dịch vụ học máy của Funnily Amazon chỉ sử dụng một thuật toán (afaik) - hồi quy logistic - cho các nhiệm vụ phân loại : p aws.amazon.com/machine-learning/faqs
stmax 27/8/2015

Bạn chỉ có thể trình bày dữ liệu tăng dần - như trong một vấn đề học tập trực tuyến . Trong trường hợp đó, hồi quy logistic không "làm cho đúng ngay lần đầu tiên". Tôi dần dần học hỏi. Nó có một mất mát tiêu chuẩn, và bản cập nhật của nó là ứng dụng tiêu chuẩn của độ dốc gốc. Hồi quy logistic có trong mỗi cuốn sách học máy mà tôi đã thấy.
Neil G

1
β

@FrankHarrell: Đúng, và đó là cách ước tính khả năng tối đa của giải pháp cho một vấn đề hồi quy logistic tiến hành.
Neil G

Hồi quy logistic có thể có trước thuật ngữ "Machine Learning", nhưng nó không có trước lĩnh vực : SNARC được phát triển vào năm 1951 và là một cỗ máy học tập . Ngoài ra, việc nhấn mạnh rằng hồi quy logistic chỉ mô hình xác suất, và bản thân nó không phải là một bộ phân loại, là chia tóc. Theo logic đó, một mạng nơ-ron không phải là một bộ phân loại (trừ khi lớp đầu ra bao gồm các nơ-ron nhị phân, nhưng điều đó sẽ làm cho việc truyền ngược trở nên không thể).
Igor F.

8

Tôi sẽ không đồng ý với hầu hết các câu trả lời ở đây và cho rằng Machine Learningcó phạm vi rất chính xác và phân biệt rõ ràng với Thống kê. ML là một lĩnh vực phụ của khoa học máy tính có lịch sử lâu đời, mà chỉ trong những năm gần đây đã tìm thấy các ứng dụng bên ngoài miền của nó. Lĩnh vực gia đình và lĩnh vực ứng dụng của ML nằm trong Trí tuệ nhân tạo (robot, phần mềm nhận dạng mẫu, v.v.), do đó, nó không chỉ là một "thuật ngữ nóng" như "Dữ liệu lớn" hay "Khoa học dữ liệu". Thống kê, mặt khác, (xuất phát từ từ "nhà nước") đã được phát triển trong các ngành khoa học xã hội và kinh tế như một công cụ cho con người, không phải máy móc. ML phát triển tách biệt với thống kê và, mặc dù ở đâu đó trên đường đi, nó bắt đầu phụ thuộc rất nhiều vào các nguyên tắc thống kê, nó không có nghĩa là một trường con của thống kê. ML và thống kê là bổ sung, không chồng chéo các lĩnh vực.

Câu trả lời dài :

Như ngụ ý của nó, các phương thức ML được tạo ra cho phần mềm / máy móc trong khi các phương pháp thống kê được tạo ra cho con người. Cả ML và thống kê đều xử lý các dự đoán về dữ liệu, tuy nhiên, các phương thức ML tuân theo cách tiếp cận tự động hóa không tham số trong khi các phương pháp thống kê đòi hỏi rất nhiều công việc xây dựng mô hình thủ công với một yếu tố giải thích bổ sung. Điều này hoàn toàn hợp lý nếu bạn cho rằng các thuật toán ML được phát triển trong nghiên cứu AI như một phương tiện dự đoán tự động hóa được tích hợp trong phần mềm robot (ví dụ cho mục đích nhận dạng giọng nói và khuôn mặt). Khi một "cỗ máy" đưa ra dự đoán, nó không quan tâm đến lý do đằng sau nó. Một máy không quan tâm để biết các trình điều khiển / dự đoán đằng sau một mô hình phân loại email là thư rác hoặc không phải thư rác, nó chỉ quan tâm để có độ chính xác dự đoán tốt nhất.hộp đen , không phải vì họ không có mô hình, mà là vì mô hình được xây dựng theo thuật toán và không thể nhìn thấy được cho cả con người lẫn máy móc.

Khái niệm "đào tạo" trong ML dựa vào sức mạnh tính toán, trong khi xây dựng mô hình thống kê với phương pháp OLS để ước lượng tham số phụ thuộc vào kiến ​​thức của một chuyên gia về con người. Trong một kịch bản hồi quy bội, tùy thuộc vào nhà thống kê sử dụng phán đoán chuyên môn của mình để chọn mô hình của mình và xác minh tất cả các giả định thống kê cần thiết. Mục tiêu của một nhà thống kê không chỉ là tìm ra các mẫu và sử dụng chúng cho các dự đoán mà còn để hiểu dữ liệu của anh ta và vấn đề của anh ta ở độ sâu lớn hơn nhiều so với ML.

Tất nhiên trong một số trường hợp ML và số liệu thống kê làm chồng chéo, như trường hợp của nhiều ngành. Hồi quy logistic là một trong những dịp này; ban đầu là một phương pháp thống kê, có rất nhiều điểm tương đồng với Perceptron đơn giản (một trong những kỹ thuật ML cơ bản nhất), theo một số phương pháp được coi là phương pháp ML.


1
Có lẽ bạn chưa bao giờ nghe nói về thống kê phi mô hình và mô hình thống kê phi mô hình và xây dựng mô hình?
Mark L. Stone

1
Có, tôi sử dụng số liệu thống kê phi kim trên cơ sở hàng ngày. Tôi đã không nói rằng ML là câu trả lời không theo tỷ lệ cho các số liệu thống kê, tôi chỉ thấy rằng các phương pháp ML không theo tỷ lệ là một tác dụng phụ. Thống kê phi tham số là một lựa chọn thay thế của nhà thống kê khi thống kê tham số không thành công, nhưng nó vẫn là kết quả của sự lựa chọn có ý thức của một chuyên gia. Có lẽ tôi không đủ rõ ràng trong việc truyền đạt quan điểm của mình và tôi xin lỗi.
Digio

3
Có rất nhiều nhà thống kê làm các mô hình phi tham số, thống kê mọi lúc. Bạn đã nghe nói về Khả năng thực nghiệm - được phát minh bởi một nhà thống kê, được sử dụng bởi các nhà thống kê, và khá không tham số, mặc dù nó cũng có thể được sử dụng theo kiểu bán tham số. Vì vậy, tôi không đồng ý với bạn, nhưng tôi đã không đánh giá thấp bạn.
Mark L. Stone

1
Không đồng ý là tốt Mark nhưng tôi vẫn không hiểu đối số của bạn là gì. Bạn đang ám chỉ rằng số liệu thống kê phi tham số không có nhu cầu học máy (điều mà tôi không bao giờ phủ nhận)? Hay bạn đang tuyên bố rằng máy học thực tế chỉ là một tên gọi khác của thống kê phi tham số (điều mà tôi đã từ chối)?
Digio

3
Có nhiều điều không đồng ý ở đây. Các mô hình hồi quy đa biến, khi được sử dụng cùng với các công cụ thống kê hiện đại, có thể linh hoạt và cạnh tranh cao với ML.
Frank Harrell

3

Học máy được định nghĩa khá lỏng lẻo và bạn đã đúng khi nghĩ rằng mô hình hồi quy - và không chỉ mô hình hồi quy logistic - cũng "học" từ dữ liệu. Tôi không thực sự chắc chắn nếu điều này có nghĩa là học máy thực sự là thống kê hoặc thống kê thực sự là học máy - hoặc nếu có bất kỳ vấn đề nào trong số này.

k

Điều đó nói rằng, một số thuật toán học được từ các lỗi dự đoán - điều này đặc biệt phổ biến trong học tăng cường , trong đó một tác nhân thực hiện một số hành động, quan sát kết quả của nó và sau đó sử dụng kết quả để lên kế hoạch cho các hành động trong tương lai. Ví dụ, máy hút bụi có thể bắt đầu bằng mô hình của thế giới nơi nó làm sạch tất cả các vị trí như nhau thường xuyên, và sau đó học cách hút bụi ở những nơi bẩn thỉu (nơi được "thưởng" bằng cách tìm bụi bẩn) nhiều hơn và làm sạch những nơi ít hơn.

Các thuật toán trực tuyến hoặc gia tăng có thể được cập nhật liên tục với dữ liệu đào tạo mới. Điều này không nhất thiết phụ thuộc vào độ chính xác dự đoán của mô hình, nhưng tôi có thể tưởng tượng một thuật toán trong đó các trọng số được cập nhật mạnh hơn nếu, ví dụ, dữ liệu mới dường như rất khó xảy ra với mô hình hiện tại. Có các phiên bản trực tuyến cho hồi quy logistic: ví dụ: McMahan và Streeeter (2012) .


3

Cuối cùng tôi đã tìm nó ra. Bây giờ tôi biết sự khác biệt giữa phù hợp mô hình thống kê và học máy.

  • Nếu bạn phù hợp với một mô hình (hồi quy), đó là mô hình thống kê phù hợp
  • Nếu bạn học một mô hình (hồi quy), đó là máy học

Vì vậy, nếu bạn học một hồi quy logistic, đó là một thuật toán học máy.

Nhận xét: Xin lỗi vì tôi là một lão già, nhưng bất cứ khi nào tôi nghe mọi người nói về việc học một mô hình, hoặc học một hồi quy, nó khiến tôi nghĩ về Jethro "Tôi đã học cho tôi một nền giáo dục".

KẾT THÚC


??? Tôi cũng có thể học một mô hình hậu cần, bạn đang nói về cái gì?
SmallChess

1
@Student T, nếu bạn phù hợp với mô hình hậu cần, đó là mô hình thống kê phù hợp. Nếu bạn học một mô hình hậu cần, đó là học máy. Tôi thực sự là một vấn đề về thuật ngữ được sử dụng bởi các lĩnh vực khác nhau. Điều tương tự có thể được gọi là những thứ khác nhau bởi các lĩnh vực khác nhau (Thống kê và Học máy).
Mark L. Stone

0

Hồi quy logistic (và nói chung hơn, GLM) KHÔNG thuộc về Machine Learning! Thay vào đó, các phương pháp này thuộc về mô hình tham số .

Cả hai mô hình tham sốthuật toán (ML) đều sử dụng dữ liệu, nhưng theo những cách khác nhau. Các mô hình thuật toán học từ dữ liệu về cách các yếu tố dự đoán ánh xạ tới dự báo, nhưng chúng không đưa ra bất kỳ giả định nào về quá trình tạo ra các quan sát (thực tế cũng không phải bất kỳ giả định nào khác). Họ cho rằng các mối quan hệ cơ bản giữa các biến đầu vào và đầu ra là phức tạp và chưa biết, và do đó, áp dụng cách tiếp cận dựa trên dữ liệu để hiểu những gì đang diễn ra, thay vì áp đặt một phương trình chính thức.

Mặt khác, tham số mô hình được quy định một cách tiên dựa trên một số kiến thức về quá trình nghiên cứu, sử dụng dữ liệu để ước tính các thông số của họ, và kiếm được nhiều giả định không thực tế mà hiếm khi giữ trong thực tế (ví dụ như tính độc lập, phương sai bằng nhau, và Phân phối bình thường của các lỗi).

Ngoài ra, các mô hình tham số (như hồi quy logistic) là các mô hình toàn cầu . Họ không thể nắm bắt các mẫu cục bộ trong dữ liệu (không giống như các phương thức ML sử dụng cây làm mô hình cơ sở của chúng, ví dụ như RF hoặc Cây được tăng cường). Xem trang giấy này 5. Như một chiến lược khắc phục, có thể sử dụng GLM cục bộ (nghĩa là không tính toán) (xem ví dụ gói locfit R).

Thông thường, khi có ít kiến ​​thức về hiện tượng cơ bản có sẵn, tốt hơn là áp dụng cách tiếp cận dựa trên dữ liệu và sử dụng mô hình thuật toán. Ví dụ, nếu bạn sử dụng hồi quy logistic trong trường hợp tương tác giữa các biến đầu vào và đầu ra không tuyến tính, mô hình của bạn sẽ không rõ ràng và rất nhiều tín hiệu sẽ không được ghi lại. Tuy nhiên, khi quy trình được hiểu rõ, các mô hình tham số có lợi thế là cung cấp một phương trình chính thức để tóm tắt mọi thứ, đó là sức mạnh từ quan điểm lý thuyết.

Để thảo luận chi tiết hơn, hãy đọc bài viết xuất sắc này của Leo Breiman.


4
Hãy dành thời gian để hiểu hồi quy logistic. Nó làm cho không có giả định phân phối nào. Nó thực hiện chính xác cùng một loại giả định độc lập được thực hiện bởi ML. ML yêu cầu kích thước mẫu lớn hơn nhiều so với hồi quy logistic. Ví dụ, các khu rừng ngẫu nhiên và SVM có thể yêu cầu 200 sự kiện cho mỗi tính năng ứng cử viên để ổn định trong khi hồi quy logistic thường yêu cầu 200 sự kiện cho mỗi biến số ứng viên.
Frank Harrell

2
Bạn nên dành thời gian để hiểu hồi quy logistic! Nó là một mô hình tuyến tính tổng quát trong đó liên kết là hàm logit. Nó là tham số. Nó giả định rằng các quan sát là IID. Ngoài ra, chúc may mắn với việc nắm bắt các mối quan hệ phi tuyến tính. Ngoài ra, phần thứ hai trong câu của bạn có nghĩa là gì? Đối với tôi, một tính năng là một biến (?)
Antoine

5
Có rất nhiều cuốn sách hay về chủ đề này và tôi khuyên bạn nên tham khảo chúng trước khi tiếp tục. Hồi quy logistic không giả định các phân phối giống hệt nhau và thực tế cho rằng không có phân phối nào cả. Trừ khi bạn có thể chứng minh làm thế nào bạn có yếu tố cấu trúc tương quan trong ML, cả hai phương pháp đều đảm nhận tính độc lập. Splines hồi quy đã được sử dụng từ năm 1982 để nới lỏng các giả định tuyến tính trong hồi quy logistic. Đối với tính năng thảo luận này = biến trừ khi được mở rộng trong một spline.
Frank Harrell

5
Breiman hiểu mọi thứ khá tốt. Ông chỉ không đối phó với sự phát triển sau năm 1982 trong hồi quy logistic, ví dụ như ước tính khả năng tối đa bị phạt, spline hồi quy và kết hợp với các phương pháp giảm dữ liệu. Hạn chế nghiêm trọng duy nhất đối với hồi quy logistic là giống như các phương pháp khác, việc tìm kiếm các tương tác phù hợp là không tốt nếu một người tìm kiếm các tương tác và chúng không được chỉ định trước. Hầu hết các phương pháp có ý định để có thể làm điều này không dẫn đến kết quả có thể nhân rộng. Ngoài ra, Breiman đã sử dụng điểm chính xác không phù hợp có thể được tối ưu hóa bằng mô hình không có thật.
Frank Harrell

3
@Antoine: "tại sao hồi quy logistic hoàn toàn khác với ML". Lưu ý rằng một số phương thức trong ML (đáng chú ý nhất là SVM) có liên quan rất nhiều đến hồi quy logistic. Ngoại trừ nhiều tương tác - như Frank đã viết - reg logistic với phi tuyến tính và hình phạt cho kết quả rất giống với SVM và các phương thức ML khác. Nó tiếp tục làm tôi ngạc nhiên khi một số bài báo trích dẫn các cải tiến hiệu suất dựa trên phương pháp ML so với mô hình logistic stat101 để hồi quy khung logistic tiêu cực.
Thomas Speidel

-1

Tôi nghĩ rằng các câu trả lời khác làm rất tốt trong việc xác định ít nhiều Machine Machine là gì (như họ chỉ ra, nó có thể là một điều mờ nhạt). Tôi sẽ thêm rằng Hồi quy logistic (và phiên bản đa thức tổng quát hơn của nó) thường được sử dụng như một phương tiện thực hiện phân loại trong các mạng thần kinh nhân tạo (mà tôi nghĩ là được bao phủ rõ ràng bởi bất kỳ định nghĩa học máy hợp lý nào bạn chọn), và vì vậy nếu bạn đề cập Hồi quy logistic cho một người mạng thần kinh, họ có khả năng ngay lập tức nghĩ về nó trong bối cảnh này. Bị trói buộc với một hitter nặng trong học máy là một cách tốt để tự mình trở thành một kỹ thuật học máy, và tôi nghĩ ở một mức độ nào đó đã xảy ra với các kỹ thuật hồi quy khác nhau, mặc dù tôi sẽ không giảm giá chúng khỏi các kỹ thuật học máy phù hợp trong và của chính họ.


Lưu ý rằng hồi quy logistic không phải là phân loại mà là phương pháp ước lượng xác suất trực tiếp.
Frank Harrell

Để biết thêm thông tin về quan điểm của Tiến sĩ Mitchell, xin vui lòng xem bài viết của tôi ở đây. stats.stackexchange.com/questions/127042/ Mạnh
Sycorax nói Phục hồi

@FrankHarrell Chúng tôi cũng có thể sử dụng xác suất để phân loại, vì vậy đây thực sự là một phân loại.
SmallChess

@ StudentT4 Điều đó không thể chính xác hơn. Nếu là một ước tính xác suất trực tiếp. Cách bạn sử dụng kết quả cuối cùng của mô hình logistic là tùy thuộc vào bạn. Theo logic của bạn, ý nghĩa mẫu là một phân loại.
Frank Harrell

-1

Tôi nghĩ rằng bất kỳ thủ tục "lặp đi lặp lại" có thể được coi là một trường hợp học máy. Hồi quy có thể được coi là học máy. Chúng tôi có thể làm điều đó bằng tay, nhưng sẽ mất nhiều thời gian, nếu có thể. Vì vậy, bây giờ chúng ta có các chương trình, máy móc, lặp đi lặp lại cho chúng ta. Nó ngày càng gần hơn với một giải pháp, hoặc giải pháp tốt nhất hoặc phù hợp nhất. Do đó, "máy học". Tất nhiên những thứ như mạng lưới thần kinh nhận được hầu hết sự chú ý liên quan đến học máy, vì vậy chúng ta thường liên kết học máy với các quy trình gợi cảm này. Ngoài ra, sự khác biệt giữa học máy "có giám sát" và "không giám sát" có liên quan ở đây


-2

Đó là một lỗi rất phổ biến mà hầu hết mọi người đều mắc phải và tôi cũng có thể thấy nó ở đây (được thực hiện bởi hầu hết mọi người). Hãy để tôi giải thích chi tiết ... Mô hình hồi quy logistic và hồi quy tuyến tính, cả hai đều là mô hình tham số cũng như Kỹ thuật học máy. Nó chỉ phụ thuộc vào phương pháp bạn đang sử dụng để ước tính các tham số mô hình (theta's). Có 2 cách tìm tham số mô hình trong Regression tuyến tính và registic log.

  1. Kỹ thuật giảm độ dốc : Ở đây chúng tôi bắt đầu bằng cách gán các giá trị ngẫu nhiên cho các tham số và tìm hàm chi phí (lỗi). Trong mỗi lần lặp, chúng tôi cập nhật các tham số và giảm thiểu hàm chi phí. Sau số lần lặp nhất định, hàm chi phí giảm xuống các giá trị mong muốn và các giá trị tham số tương ứng là giá trị cuối cùng của chúng tôi. Đây là những gì một kỹ thuật máy học phải làm. Vì vậy, nếu bạn đang sử dụng kỹ thuật Gradient Descent, hồi quy Logistic có thể gọi là kỹ thuật học máy.

  2. Bằng cách sử dụng Phương pháp bình phương tối thiểu: Ở đây chúng tôi có công thức trực tiếp để tìm các tham số của chúng tôi (một số đại số ma trận được yêu cầu để hiểu đạo hàm của công thức này) được gọi là phương trình bình thường. Phương pháp vuông nhỏ nhất

Ở đây b đại diện cho tham số X là Ma trận thiết kế. Cả hai Phương pháp đều có những ưu điểm và hạn chế riêng. Để biết thêm chi tiết: hãy theo khóa học coursera Machine Learning vẫn đang chạy.

Tôi hy vọng bài viết này có thể hữu ích .. :-)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.