Khi nào nên gọi hồi quy tuyến tính


90

Trong một hội thảo gần đây, bản tóm tắt của người nói đã tuyên bố họ đang sử dụng máy học. Trong buổi nói chuyện, điều duy nhất liên quan đến học máy là họ thực hiện hồi quy tuyến tính trên dữ liệu của họ. Sau khi tính toán các hệ số phù hợp nhất trong không gian tham số 5D, họ đã so sánh các hệ số này trong một hệ thống với các hệ số phù hợp nhất của các hệ thống khác.

Khi nào học máy hồi quy tuyến tính , trái ngược với việc đơn giản là tìm một dòng phù hợp nhất? (Là sự sai lệch trừu tượng của nhà nghiên cứu?)

Với tất cả các máy học chú ý đã xuất hiện gần đây, có vẻ rất quan trọng để tạo ra sự khác biệt như vậy.

Câu hỏi của tôi là như thế này , ngoại trừ câu hỏi đó yêu cầu định nghĩa "hồi quy tuyến tính", trong khi câu hỏi của tôi khi hồi quy tuyến tính (có số lượng ứng dụng rộng rãi) có thể được gọi một cách thích hợp là "học máy".

Làm rõ

Tôi không hỏi khi hồi quy tuyến tính giống như học máy. Như một số người đã chỉ ra, một thuật toán duy nhất không tạo thành một lĩnh vực nghiên cứu. Tôi đang hỏi khi nào chính xác để nói rằng một người đang học máy khi thuật toán mà người ta đang sử dụng chỉ đơn giản là một hồi quy tuyến tính.

Tất cả những trò đùa qua một bên (xem bình luận), một trong những lý do tôi hỏi điều này là bởi vì thật phi đạo đức khi nói rằng một người đang học máy để thêm một vài ngôi sao vàng vào tên của bạn nếu họ không thực sự học máy. (Nhiều nhà khoa học tính toán một số loại đường phù hợp nhất cho công việc của họ, nhưng điều này không có nghĩa là họ đang làm học máy.) Mặt khác, có những tình huống rõ ràng khi hồi quy tuyến tính được được sử dụng như một phần của máy học. Tôi đang tìm kiếm các chuyên gia để giúp tôi phân loại các tình huống này. ;-)


13
Có lẽ bạn muốn xem chủ đề: " Hai nền văn hóa: thống kê so với học máy? ".
usεr11852

75
Bạn nên đổi tên hồi quy của mình thành 'máy học' bất cứ khi nào bạn muốn tăng gấp đôi phí trên thẻ giá của mình.
Sycorax

3
Có một sự khác biệt. Học tập là một quá trình. Một sự phù hợp tốt nhất là một mục tiêu. Xem câu trả lời của tôi dưới đây. Thành thật mà nói, các từ không có cùng một nghĩa, mặc dù có thể xuất hiện trong cùng một bối cảnh, như "chim bay", người ta có thể liên tưởng đến hai, nhưng chim không bay, và mặc dù bay là dành cho chim, nhưng nó là dành cho F -18 máy bay chiến đấu là tốt.
Carl

20
@Sycorax và học sâu khi bạn muốn tăng gấp bốn lần
Franck Dernoncourt

11
@FranckDernoncourt "Tôi là một nhà khoa học dữ liệu sử dụng học sâu trong môi trường dữ liệu lớn để giải quyết các vấn đề về máy học" nghe có vẻ như là một tiêu đề hay cho hồ sơ LinkedIn;)
Tim

Câu trả lời:


78

Trả lời câu hỏi của bạn bằng một câu hỏi: chính xác máy học là gì? Trevor Hastie, Robert Tibshirani và Jerome Friedman trong Các yếu tố của học thống kê , Kevin P. Murphy trong học máy theo quan điểm xác suất , Christopher Giám mục trong nhận dạng mẫu và học máy , Ian Goodfellow, Yoshua Bengio và Aaron Courville trong Deep Learning và một số "kinh thánh" máy học khác đề cập đến hồi quy tuyến tính là một trong những "thuật toán" học máy. Học máy một phần là một từ thông dụng cho các số liệu thống kê được áp dụng và sự khác biệt giữa số liệu thống kê và học máy thường bị mờ.


4
Đúng nhưng chúng là một phần lớn các ngành học im lặng với số lượng lớn các tài liệu, phương pháp và thuật toán không chồng chéo. Ví dụ, trong thế giới máy học ngày nay, sinh viên tốt nghiệp khoa học máy tính và dữ liệu đang đi trước các ứng viên thống kê về kinh phí, tài trợ và công việc, bạn đặt tên cho nó.
Mike Hunter

6
@DJohnson vì vậy nó được áp dụng thống kê với gói mới, được bán với giá cao hơn ..? Tôi không nghĩ rằng thực tế là nó hợp thời trang không biến nó thành một từ thông dụng. Thống kê Bayes cũng có các phương pháp, tạp chí, hội nghị, sổ tay và ứng dụng riêng không trùng lặp với thống kê cổ điển - nó có làm cho nó trở thành một môn học khác biệt với thống kê không?
Tim

3
Vâng Tôi đã bỏ qua việc cảnh báo quan sát của mình về các học viên ML với quan sát tổng quát hơn rằng các học viên im lặng, tập trung hẹp là đặc hữu của mọi lĩnh vực và nghề nghiệp, không chỉ ML. Đó là một loại rủi ro nghề nghiệp - đọc thất bại của con người - rằng mọi người trở nên mù quáng trước thông tin bên ngoài nhu cầu và lợi ích trước mắt của họ. CV cũng không ngoại lệ.
Mike Hunter

23
(+1) Tôi đồng ý không có sự phân biệt rõ ràng. Trong phạm vi tôi nghĩ về sự khác biệt, tôi thường nghĩ ML quan tâm nhiều hơn đến các dự đoán và thống kê liên quan nhiều hơn đến suy luận tham số (ví dụ thiết kế thử nghiệm cho mô hình bề mặt phản ứng sẽ không điển hình trong ML?). Vì vậy, theo nghĩa đó, ví dụ OP - nơi các hệ số hồi quy dường như được quan tâm nhất - sẽ giống như "thống kê" (?)
GeoMatt22

3
Xem thêm Hai nền văn hóa của Leo Breiman, một điểm tương tự như của @ GeoMatt22: ML tập trung vào dự đoán chính xác. Cho dù mô hình là đúng không quan trọng. Thống kê cổ điển đang tìm kiếm mô hình "thật", theo một cách nào đó, hoặc ít nhất là một mô hình cung cấp một số cái nhìn sâu sắc về các quy trình tạo ra dữ liệu.
Peter

41

Hồi quy tuyến tính chắc chắn là một thuật toán có thể được sử dụng trong học máy. Nhưng, reductio ad absurdum : Bất kỳ ai có bản sao Excel đều có thể phù hợp với mô hình tuyến tính.

Ngay cả việc giới hạn bản thân trong các mô hình tuyến tính, có một vài điều nữa cần xem xét khi thảo luận về học máy:

  • Học máy về các vấn đề kinh doanh có thể liên quan đến nhiều dữ liệu hơn. " Dữ liệu lớn ", nếu bạn muốn sử dụng từ thông dụng. Làm sạch và chuẩn bị dữ liệu có thể mất nhiều công sức hơn so với mô hình thực tế. Và khi khối lượng dữ liệu vượt quá khả năng của một máy để xử lý nó thì các thách thức kỹ thuật cũng quan trọng như các thách thức thống kê. (Nguyên tắc chung: nếu nó phù hợp với bộ nhớ chính thì đó không phải là dữ liệu lớn).
  • Học máy thường liên quan đến nhiều biến số giải thích (tính năng) hơn các mô hình thống kê truyền thống. Có lẽ hàng chục, đôi khi thậm chí hàng trăm người trong số họ, một số trong đó sẽ là các biến phân loại với nhiều cấp độ. Khi các tính năng này có khả năng tương tác (ví dụ trong mô hình hiệu ứng chéo), số lượng mô hình tiềm năng phù hợp sẽ tăng lên nhanh chóng.
  • Người thực hành máy học thường ít quan tâm đến tầm quan trọng của các tính năng riêng lẻ và quan tâm nhiều hơn đến việc tạo ra sức mạnh dự đoán càng nhiều càng tốt trong một mô hình, sử dụng kết hợp các tính năng nào. (Giá trị P được liên kết với giải thích, không phải dự đoán.)
  • Với số lượng lớn các tính năng và nhiều cách khác nhau để thiết kế các tính năng đó, việc lựa chọn mô hình bằng tay trở nên không khả thi. Theo tôi, thách thức thực sự trong học máy là việc lựa chọn tự động các tính năng (kỹ thuật tính năng) và các khía cạnh khác của đặc tả mô hình. Với một mô hình tuyến tính, có nhiều cách khác nhau để làm điều này, thường là các biến thể của lực lượng vũ phu; bao gồm hồi quy từng bước, loại bỏ trở lại, vv, tất cả những điều này một lần nữa đòi hỏi sức mạnh tính toán đáng kể. (Nguyên tắc thứ hai: nếu bạn đang chọn các tính năng bằng tay, bạn đang thực hiện thống kê, không phải học máy).
  • Khi bạn tự động phù hợp với nhiều mô hình với nhiều tính năng, quá phù hợp là một vấn đề tiềm năng nghiêm trọng. Đối phó với vấn đề này thường liên quan đến một số hình thức xác nhận chéo : tức là tính toán mạnh mẽ hơn!

Câu trả lời ngắn gọn, theo quan điểm của tôi, là việc học máy đi lệch khỏi mô hình thống kê truyền thống là áp dụng phương pháp vũ phu và phương pháp số để lựa chọn mô hình, đặc biệt là trong các lĩnh vực có số lượng lớn dữ liệu và số lượng lớn các biến giải thích , tập trung vào sức mạnh dự đoán, tiếp theo là lực lượng vũ phu hơn để xác nhận mô hình.


2
Tôi thích sự khác biệt này nói chung. Tuy nhiên, việc xác thực chéo có bao giờ được sử dụng trong các mô hình "thống kê" hay điều này hiếm khi cần thiết vì chúng thường được thực hiện bằng tay? Là kỹ thuật tính năng được xem xét thống kê sau đó như nó được thực hiện bằng tay?
Josh

3
@josh, vâng, nó có thể Nhưng nếu bạn nhìn vào thẻ xác nhận chéo, hầu như tất cả các câu hỏi là về mô hình dự đoán.
david25272

@ david25272 Tôi tò mò về cách bạn nghĩ về bootstrap, .632+ bootstrap và kiểm tra hoán vị - Tôi luôn nghĩ về chúng như là "thống kê ứng dụng" hơn là "học máy" bởi vì chúng là như thế nào có động cơ, nhưng chúng tương tự như "sức mạnh vũ phu" để xác thực chéo k hoặc gấp lại. Tôi nghĩ rằng chính quy hóa L1 cũng có thể được coi là một loại lựa chọn tính năng trong khung thống kê ...
Patrick B.

@Patrick stats.stackexchange.com/questions/18348 là một câu trả lời tốt hơn về việc sử dụng bootstaps để xác thực mô hình hơn tôi có thể cung cấp.
david25272

@ david25272 ah, xin lỗi, câu hỏi của tôi là nhiều hơn cho dù bạn nghĩ chúng là kỹ thuật "học máy" hay kỹ thuật "thống kê ứng dụng", vì chúng có động lực thống kê nhưng cũng là "sức mạnh vũ phu". Tôi quen thuộc với việc sử dụng bootstraps được chỉnh sửa thiên vị để xác thực mô hình.
Patrick B.

14

Tôi nghĩ định nghĩa của Mitchell cung cấp một cách hữu ích để thảo luận về học máy, một loại nguyên tắc đầu tiên. Như được sao chép trên Wikipedia :

Một chương trình máy tính được cho là học hỏi từ kinh nghiệm E đối với một số loại nhiệm vụ T và hiệu suất đo P nếu hiệu suất của nó tại các nhiệm vụ trong T, được đo bằng P, cải thiện với kinh nghiệm E.

Điều này hữu ích trong một số cách. Đầu tiên, cho câu hỏi ngay lập tức của bạn: Hồi quy là học máy khi nhiệm vụ của nó là cung cấp giá trị ước tính từ các tính năng dự đoán trong một số ứng dụng. Hiệu suất của nó sẽ được cải thiện, như được đo bằng bình phương trung bình (hoặc tuyệt đối, v.v.) đã đưa ra lỗi, vì nó gặp nhiều dữ liệu hơn.

Thứ hai, nó giúp phân định học máy từ các thuật ngữ liên quan và sử dụng nó như một từ thông dụng tiếp thị. Đối chiếu nhiệm vụ trên với một hồi quy tiêu chuẩn, suy luận, trong đó một nhà phân tích diễn giải các hệ số cho các mối quan hệ quan trọng. Ở đây chương trình trả về một bản tóm tắt: hệ số, giá trị p, v.v ... Chương trình không thể nói là cải thiện hiệu suất này bằng kinh nghiệm; nhiệm vụ được tính toán công phu.

Cuối cùng, nó giúp thống nhất các trường con học máy, cả hai trường thường được sử dụng trong giải trình bày giới thiệu (được giám sát, không giám sát) với các trường khác như học tăng cường hoặc ước tính mật độ. (Mỗi người có một nhiệm vụ, thước đo hiệu suất và khái niệm kinh nghiệm, nếu bạn nghĩ về họ đủ.) Tôi nghĩ, một định nghĩa phong phú hơn giúp phân định hai lĩnh vực mà không cần giảm một cách không cần thiết. Ví dụ: "ML dành cho dự đoán, thống kê suy luận" bỏ qua cả các kỹ thuật học máy bên ngoài việc học có giám sát và các kỹ thuật thống kê tập trung vào dự đoán.


12

Không có luật nào nói rằng một nhà sản xuất tủ không thể sử dụng cưa của nhà sản xuất thùng.

Học máy và thống kê là những nhãn hiệu mơ hồ, nhưng nếu được xác định rõ sẽ có rất nhiều sự chồng chéo giữa thống kê và học máy. Và điều này áp dụng cho các phương pháp của hai lĩnh vực này cũng như (và riêng biệt) cho những người tự dán nhãn cho hai khu vực này. Nhưng theo như toán học, học máy hoàn toàn nằm trong lĩnh vực thống kê.

Hồi quy tuyến tính là một thủ tục toán học được xác định rất tốt. Tôi có xu hướng liên kết nó với lĩnh vực thống kê và những người tự gọi mình là 'thống kê' và những người bước ra từ các chương trình học thuật với các nhãn hiệu như 'thống kê'. SVM (Support Vector Machines) cũng là một thủ tục toán học được xác định rất rõ, có một số đầu vào và đầu ra tương tự và giải quyết các vấn đề tương tự. Nhưng tôi có xu hướng liên kết nó tuy nhiên với lĩnh vực học máy và những người tự gọi mình là nhà khoa học máy tính hoặc người làm việc trong trí tuệ nhân tạo hoặc học máy có xu hướng được coi là một phần của khoa học máy tính.

Nhưng một số nhà thống kê có thể sử dụng SVM và một số người AI sử dụng hồi quy logistic. Rõ ràng, nhiều khả năng một nhà nghiên cứu thống kê hoặc AI sẽ phát triển một phương pháp hơn là thực sự đưa nó vào sử dụng thực tế.

Tôi đặt tất cả các phương pháp học máy thẳng đứng trong phạm vi thống kê. Ngay cả những thứ gần đây như Deep Learning, RNNs, CNNs, LSTM, CRFs. Một nhà thống kê ứng dụng (nhà thống kê sinh học, nhà nông học) có thể không quen thuộc với họ. Đó là tất cả các phương pháp mô hình dự đoán thường được gắn nhãn 'học máy' và hiếm khi được liên kết với thống kê. Nhưng chúng là những mô hình dự đoán, với sự cho phép mà chúng có thể được đánh giá bằng các phương pháp thống kê.

Cuối cùng, hồi quy logistic phải được coi là một phần của học máy.

Nhưng, vâng, tôi thấy và thường chia sẻ sự chán ghét của bạn cho việc áp dụng sai những từ này. Hồi quy tuyến tính là một phần cơ bản của những thứ được gọi là thống kê đến nỗi nó cảm thấy rất kỳ lạ và sai lệch khi gọi việc sử dụng nó là 'học máy' .

Để minh họa, hồi quy Logistic giống hệt về mặt toán học với mạng Deep Learning không có nút ẩn và hàm logistic là hàm kích hoạt cho nút đầu ra duy nhất. Tôi sẽ không gọi hồi quy logistic là phương pháp học máy, nhưng nó chắc chắn được sử dụng trong bối cảnh học máy.

Đó chủ yếu là một vấn đề của sự mong đợi.

A: "Tôi đã sử dụng máy học để dự đoán việc nhập viện sau khi phẫu thuật tim."

B: "Ồ vâng? Học sâu? Rừng ngẫu nhiên? !!?"

A: "Ồ, không, không có gì lạ mắt như thế, chỉ là Hồi quy Logistic."

B: cái nhìn vô cùng thất vọng .

Giống như nói, khi rửa cửa sổ bằng nước mà bạn đang sử dụng hóa học lượng tử. Vâng, chắc chắn rằng điều đó không sai về mặt kỹ thuật nhưng bạn đang ám chỉ nhiều hơn những gì cần thiết.

Nhưng thực sự, đó chính xác là một sự khác biệt về văn hóa so với sự khác biệt về chất. Ý nghĩa của một từ và liên kết với các nhóm người (LR hoàn toàn không phải là ML!) So với toán học và các ứng dụng (LR hoàn toàn là ML!).


3
Hồi quy logistic cũng rất giống nhau, cả về thực tế và lý thuyết, đối với các SVM: web.stanford.edu/~hastie/Papers/svmtalk.pdf
Patrick B.

3

Quan điểm chung là học máy bao gồm 4 lĩnh vực:

1) Giảm kích thước

2) Phân cụm

3) Phân loại

4) Hồi quy

Hồi quy tuyến tính là một hồi quy. Khi mô hình được đào tạo, nó có thể được sử dụng để dự đoán, giống như bất kỳ mô hình nào khác, giả sử, Hồi quy rừng ngẫu nhiên.


Thực sự có một sự khác biệt, mặc dù hồi quy tuyến tính có thể được giải quyết bằng cách sử dụng máy học. Một mục tiêu hồi quy phổ biến là bình phương tối thiểu thông thường, có nghĩa là, hàm mất mục tiêu của chúng tôi, tổng dư bình phương, sẽ được giảm thiểu. Bây giờ, học máy chỉ đơn giản là tham khảo phương pháp đó theo đó chúng ta giảm thiểu chức năng mất.
Carl

Do đó, về mặt khái niệm, hồi quy tuyến tính thông qua độ dốc (học tập) chọn phần dư vuông tổng hợp tốt hơn và tốt hơn (hàm mất). Các khái niệm cơ bản giống như các khái niệm cho các thuật toán học tập tiên tiến hơn nhiều, chẳng hạn như mạng lưới thần kinh. Các thuật toán này chỉ đơn giản là thay thế mô hình tuyến tính bằng một mô hình phức tạp hơn nhiều - và, tương ứng, một hàm chi phí phức tạp hơn nhiều. .
Carl

1
Vì vậy, câu trả lời cho câu hỏi OP Khi học máy hồi quy tuyến tính, trái ngược với việc đơn giản là tìm một dòng phù hợp nhất? Khi hồi quy tuyến tính được thực hiện bằng cách sử dụng một yếu tố có thể xác định của học máy, như giảm độ dốc , thì đó là hồi quy tuyến tính được thực hiện bằng cách sử dụng máy học.
Carl

5
@Carl, vấn đề ở đây là "học máy" đã định nghĩa. Đối với tôi nếu chúng ta có thể sử dụng một mô hình thống kê và mô hình đó sẽ có khả năng dự đoán đó là học máy. Và không quan trọng cách tiếp cận nào được sử dụng để tìm các hệ số của mô hình.
Akavall

1
Tôi thấy câu trả lời của Akavall khá rõ ràng. Tôi tin rằng vấn đề của Akavall là định nghĩa mà bạn trình bày là hình tròn, bởi vì nó dường như biến thành "Q: khi nào kỹ thuật X được tính là 'học máy'? A: khi kỹ thuật X được thực hiện bằng cách sử dụng một yếu tố có thể xác định của học máy." (Thật không may, tôi không hiểu điểm thứ hai bạn đang thực hiện nên tôi không thể đáp ứng điều đó.)
Patrick B.

2

Hồi quy tuyến tính là một kỹ thuật, trong khi học máy là mục tiêu có thể đạt được thông qua các phương tiện và kỹ thuật khác nhau.

Vì vậy, hiệu suất hồi quy được đo bằng mức độ phù hợp với đường / đường dự kiến, trong khi học máy được đo bằng mức độ tốt của nó có thể giải quyết một vấn đề nhất định, với bất kỳ phương tiện nào cần thiết.


2

Tôi sẽ lập luận rằng sự khác biệt giữa học máy và suy luận thống kê là rõ ràng. Tóm lại, học máy = dự đoán các quan sát trong tương lai ; thống kê = giải thích.

Dưới đây là một ví dụ từ lĩnh vực mà tôi quan tâm (y học): khi phát triển một loại thuốc, chúng tôi tìm kiếm (các) gen giải thích tốt nhất về tình trạng bệnh, với mục tiêu nhắm mục tiêu nó với thuốc. Chúng tôi sử dụng statistis cho điều đó. Ngược lại, khi phát triển các xét nghiệm chẩn đoán, ví dụ như dự đoán liệu thuốc có giúp ích cho bệnh nhân hay không, mục tiêu là tìm kiếm dự đoán tốt nhất về kết quả trong tương lai, ngay cả khi nó bao gồm nhiều gen và quá phức tạp để hiểu. Chúng tôi sử dụng máy học cho mục đích này. Có nhiều ví dụ được công bố [1], [2], [3], [4] cho thấy rằng sự hiện diện của mục tiêu thuốc không phải là một yếu tố dự báo tốt về kết quả điều trị, do đó là sự khác biệt.

Dựa trên điều này, thật công bằng khi nói rằng một người đang học máy khi mục tiêu dự đoán nghiêm ngặt về kết quả của những quan sát trong tương lai / chưa từng thấy trước đây. Nếu mục tiêu là hiểu một hiện tượng cụ thể, thì đó là suy luận thống kê, không phải học máy. Như những người khác đã chỉ ra, điều này là đúng bất kể phương pháp liên quan.

Để trả lời câu hỏi của bạn: trong nghiên cứu cụ thể mà bạn mô tả, các nhà khoa học đã so sánh vai trò của yếu tố (trọng số) trong các mô hình hồi quy tuyến tính khác nhau, không so sánh độ chính xác của mô hình. Do đó, không chính xác để gọi máy học suy luận của họ.

[1] Messersmith WA, DJ Ahnen. Nhắm mục tiêu EGFR trong ung thư đại trực tràng. Tạp chí Y học New England; 2008; 359; 17.

[2] Pogue-Geile KL et al. Dự đoán mức độ lợi ích từ Trastuzumab bổ trợ trong thử nghiệm NSABP B-31. J Natl Ung thư Inst; 2013; 105: 1782-1788.

[3] Pazdur R. FDA chấp thuận cho Vemurafenib. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Cập nhật ngày 3 tháng 7 năm 2013.

[4] Ray T. Hai nghiên cứu ASCO cho thấy thách thức của việc sử dụng tín hiệu MET làm điểm đánh dấu dự đoán trong các thử nghiệm thuốc NSCLC. GenomeWeb, ngày 11 tháng 6 năm 2014.


7
Tôi đồng ý rằng nghiên cứu về máy học có sự nhấn mạnh hơn nhiều vào các dự đoán so với ước tính tham số. Nhưng đó không phải là một ranh giới rõ ràng: nghiên cứu thống kê rất phong phú với các phương pháp dự đoán.
Vách đá AB

4
Vậy những nhà thống kê đưa ra dự đoán trước khi máy tính tồn tại (hoặc được phổ biến rộng rãi) thì sao? Có phải họ đang áp dụng học máy bằng giấy và bút chì?!
Tim

1
@Tim: lập luận rất tốt. Tôi tin rằng câu trả lời là có nếu họ tập trung vào các quan sát trong tương lai, mặc dù tôi thừa nhận trong những trường hợp (hiếm) đó, việc học thống kê tên sẽ phù hợp hơn. Với sự ra đời của máy tính, thuật ngữ học máy trở nên thời thượng hơn. Vấn đề không phải là tên, cũng không phải là việc sử dụng máy tính; đó là sự rõ ràng của mục đích. Theo quan điểm của tôi, gần như không thể tối ưu hóa thành công cả dự đoán chính xác về các quan sát chưa từng thấy trước đây sự hiểu biết về hiện tượng này. Tốt hơn để tập trung thích hợp.
ljubomir

4
Dự báo chuỗi thời gian (dự đoán quan sát trong tương lai) từ lâu đã là một vấn đề phổ biến trong thống kê (và kinh tế lượng), vì vậy tôi không đồng ý với sự phân biệt rõ ràng dựa trên điều đó.
Richard Hardy

1
Câu trả lời này là không có thật. Dự đoán chỉ là một phần nhỏ của học máy. Thống kê cũng làm dự đoán. Mặc dù khó có thể phân định giữa học máy và thống kê, nhưng đây chắc chắn không phải là cách chính xác.
cướp

2

Có thể hữu ích khi gọi học máy hồi quy tuyến tính bởi vì làm như vậy thường ngụ ý một vài điều quan trọng về cách bạn đã giải quyết vấn đề của mình:

  1. Bạn đã quyết định không cần thiết phải kiểm tra các giả định nguyên nhân và lý thuyết trước đằng sau các biến giải thích của bạn. Nó báo hiệu rằng mô hình của bạn không nhằm giải thích mà là để dự đoán. Điều này là hoàn toàn hợp lý trong rất nhiều cài đặt, ví dụ, dự đoán thư rác dựa trên các từ khóa. Thực sự không có nhiều tài liệu về các từ dự đoán thư rác và có rất nhiều từ không có ý nghĩa để suy nghĩ thông qua ý nghĩa lý thuyết của mỗi từ
  2. Bạn đã không kiểm tra mức ý nghĩa thay đổi hoặc sử dụng giá trị p mà thay vào đó có thể đã chọn tham gia tập hợp nắm giữ hoặc xác thực chéo để đánh giá hiệu suất dự đoán ngoài mẫu. Điều này có thể hoàn toàn hợp lệ nếu - quay lại ví dụ spam email - nếu thực sự tất cả những gì bạn quan tâm là tạo ra một mô hình dự đoán hiệu quả thư rác, ngay cả khi điều này có chi phí bao gồm các biến không vượt qua các bài kiểm tra ý nghĩa truyền thống.

Tuy nhiên, nếu mô hình của bạn có ý định giải thích nhiều hơn dự đoán và bạn kiểm tra chặt chẽ các giả định nguyên nhân lý thuyết của mô hình, v.v. vâng, vâng, thật ngu ngốc khi gọi nó là học máy.


2

Phải thừa nhận rằng, bất kỳ câu trả lời cho câu hỏi này là ý kiến ​​nhiều hơn thực tế khách quan, nhưng tôi sẽ cố gắng đưa ra logic của mình tại sao tôi nghĩ rằng câu trả lời là không bao giờ . Bất kỳ cái gọi là chuyên gia hoặc người hướng dẫn học máy chỉ tiết lộ sự thiếu hiểu biết của họ bằng cách đại diện cho hồi quy tuyến tính như vậy.

Phân định các ngành học thuật là về phân định các cộng đồng hơn là các phương pháp. Các ngành khoa học mượn phương pháp xuyên suốt các ngành học mọi lúc. Ngoài ra, vào thế kỷ 19 (khi hồi quy tuyến tính được phát triển) và trước đó, các ngành khoa học không được phân định rõ ràng như ngày nay. Vì vậy, đặc biệt khi các phương pháp được phát triển vào thế kỷ 19 hoặc trước đó, chúng ta nên cẩn thận khi gán chúng cho một chuyên ngành cụ thể.

Điều đó đang được nói, người ta có thể nhìn vào lịch sử của một ngành học và kết luận hợp lý rằng các phương pháp cụ thể "thuộc về" môn học này hay môn học khác. Ngày nay, không ai có thể nói rằng phép tính thuộc về lĩnh vực vật lý, mặc dù Newton, một trong những người phát minh ra phép tính, chắc chắn đang cố gắng áp dụng điều này vào vật lý. Giải tích rõ ràng thuộc về ngành học toán học, không phải vật lý. Điều này là do tính toán là một phương pháp toán học chung có thể được sử dụng hoàn toàn bên ngoài bối cảnh vật lý.

Theo cùng một lý do, hồi quy tuyến tính thuộc về chuyên ngành thống kê, mặc dù nó thường được sử dụng như một ví dụ đơn giản về việc khớp dữ liệu với một mô hình trong bối cảnh học máy. Giống như phép tính có thể được sử dụng bên ngoài bối cảnh vật lý, hồi quy tuyến tính có thể (và được) sử dụng bên ngoài bối cảnh học máy.

Các giảng viên học máy sẽ là khôn ngoan khi chỉ ra rằng hồi quy tuyến tính đã được sử dụng từ cuối thế kỷ 19 từ lâu trước khi khái niệm hiện đại về học máy xuất hiện. Họ cũng nên nhấn mạnh rằng học máy sử dụng nhiều khái niệm từ xác suất và thống kê, cũng như các ngành khác (ví dụ như lý thuyết thông tin). Tuy nhiên, các khái niệm này không đại diện cho học máy hoặc một "thuật toán" của học máy.


1

Đó là cái máy, đồ ngốc!

Tôi không phải là chuyên gia thống kê cũng không phải là chuyên gia về Dữ liệu lớn (TM). Tuy nhiên, tôi muốn nói rằng sự khác biệt cơ bản là "học máy" đòi hỏi "một cỗ máy". Đặc biệt, nó ngụ ý cơ quan . Kết quả sẽ không được tiêu thụ một cách nhàn nhã bởi một con người. Thay vào đó, kết quả sẽ là đầu vào cho một chu trình khép kín, theo đó một hệ thống tự động cải thiện hiệu suất của nó.

Hệ thống khép kín

Điều này rất phù hợp với câu trả lời của Sean Easter, nhưng tôi chỉ muốn nhấn mạnh rằng trong các ứng dụng thương mại, một cỗ máy đang xem kết quả và hành động theo chúng . Một ví dụ kinh điển là thuật toán CineMatch là mục tiêu của Giải thưởng Netflix. Một con người có thể nhìn vào đầu ra của CineMatch và tìm hiểu các tính năng thú vị về người xem phim. Nhưng đó không phải là lý do tại sao nó tồn tại. Mục đích của CineMatch là cung cấp một cơ chế theo đó các máy chủ Netflix có thể đề xuất phim cho khách hàng mà họ sẽ thích. Đầu ra của mô hình thống kê đi vào dịch vụ đề xuất, cuối cùng tạo ra nhiều đầu vào hơn khi khách hàng đánh giá phim, một số phim được chọn theo lời khuyên của CineMatch.

Hệ thống mở

Mặt khác, nếu một nhà nghiên cứu sử dụng thuật toán để tạo ra kết quả thống kê được hiển thị trong bài thuyết trình cho người khác, thì nhà nghiên cứu đó quyết định không tham gia vào học máy . Đây là, khá rõ ràng với tôi, học tập của con người . Việc phân tích được thực hiện bởi một cỗ máy, nhưng nó không phải là một cỗ máy đang thực hiện việc học . Bây giờ, đó là "học máy" đến mức não bộ con người không trải nghiệm tất cả các đầu vào mẫu và rút ra kết quả thống kê "về mặt sinh học". Nhưng tôi sẽ gọi nó là "thống kê" bởi vì đây chính xác là những gì các nhà thống kê đã làm kể từ khi lĩnh vực này được phát minh.

Phần kết luận

Vì vậy, tôi sẽ trả lời câu hỏi này bằng cách hỏi: "Ai tiêu thụ kết quả?" Nếu câu trả lời là: "con người", thì đó là "thống kê". Nếu câu trả lời là: "phần mềm", thì đó là "máy học". Và khi chúng tôi nói rằng "phần mềm tiêu thụ kết quả", chúng tôi không có nghĩa là nó lưu trữ nó ở đâu đó để phục hồi sau này. Chúng tôi có nghĩa là nó thực hiện hành vi được xác định bởi các kết quả trong một vòng khép kín .


8
Đây là một điểm hợp lý, nhưng tôi nghĩ trong thực tế các mô hình ML thường được trao cho mọi người để giải thích và làm việc với.
gung

1
Tôi muốn nói rằng đó là vì ML như một lĩnh vực đã sinh ra nhiều công cụ hữu ích được các nhà thống kê tận dụng , ngay cả khi đó không phải là thứ họ muốn tự gọi mình, cho mục đích tiếp thị. ;)
Người cắt cỏ

Tôi hoàn toàn đồng ý với @gung; tương tự như các câu trả lời khác, tôi đồng ý rằng đây thường là động lực cho những người tự gọi mình là "nhà nghiên cứu ML", đây chắc chắn không phải là một dòng xác định. Hai ví dụ phản biện: hệ thống đề xuất được coi là một khu vực nghiên cứu ML, nhưng kết quả được cung cấp trực tiếp cho con người. Bộ lọc Kalman rất thường được sử dụng trong điều hướng cho tự động điều khiển, không có người trong vòng lặp, nhưng thường được coi là một phương pháp thống kê.
Vách đá AB

-1

Theo tôi, người ta có thể nói về học máy khi một máy được lập trình để suy ra các tham số của một số mô hình sử dụng một số dữ liệu.

Nếu hồi quy tuyến tính được thực hiện bằng máy, do đó nó đủ điều kiện.

Nếu được thực hiện bằng tay, thì không.

Các định nghĩa xoay quanh mức độ phổ biến của một số tác nhân (như Excel) hoặc cải tiến lặp lại (như Sean Easter gợi ý ở trên), bằng cách nào đó cố gắng tách nó khỏi thống kê hoặc theo những gì cần làm với kết quả sẽ chứng minh sự không nhất quán, theo ý kiến ​​của tôi.


3
Vì vậy, nếu bạn tính toán hồi quy, hoặc kNN, hoặc cây quyết định, sử dụng giấy và bút chì và nhận được kết quả tương tự như tính toán trên máy tính, thì trong trường hợp đầu tiên, đó có phải là máy học và thứ hai không ..? Mặt khác, nếu bạn sử dụng máy tính để gán ngẫu nhiên một số giá trị làm "tham số" cho mô hình của mình, thì bạn có đủ điều kiện nhận nó dưới dạng máy học hay không do máy thực hiện? Định nghĩa này dường như không có nhiều ý nghĩa ...
Tim

Bạn khó có thể gọi nó là học máy nếu bạn không sử dụng máy. Đó là cỗ máy học hỏi, sau tất cả. Và tôi đã thực sự triển khai các mô hình "học" các tham số của chúng bằng một quá trình ngẫu nhiên (Monte Carlo). Tuy nhiên, tôi phải thừa nhận rằng có một bước xác nhận liên quan sau đó.
Ytsen de Boer

2
Các thuật toán như Support Vector Machines được gọi là "máy" vì lý do lịch sử, bởi vì trong thời kỳ đầu, người ta sẽ phải chế tạo máy / máy tính thực tế để chạy chúng ( stats.stackexchange.com/questions/261041/ ,), nó không có gì để làm với "các thuật toán được chạy trên máy". Hơn nữa, các mô hình chuỗi thời gian như ARIMA không nằm trong phạm vi học máy, mà là các số liệu thống kê và chúng được chạy trên máy tính.
Tim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.