Hai nền văn hóa: thống kê so với học máy?


420

Năm ngoái, tôi đã đọc một bài đăng trên blog từ Brendan O'Connor có tựa đề "Thống kê so với học máy, chiến đấu!" đã thảo luận về một số khác biệt giữa hai lĩnh vực. Andrew Gelman đã phản ứng thuận lợi với điều này :

Simon Blomberg:

Từ gói vận may của R: Để diễn giải một cách khiêu khích, 'học máy là số liệu thống kê trừ đi mọi kiểm tra về mô hình và giả định'. - Brian D. Ripley (về sự khác biệt giữa học máy và thống kê) sử dụngR! 2004, Vienna (Tháng 5 năm 2004) :-) Chúc mừng mùa!

Andrew Gelman:

Trong trường hợp đó, có lẽ chúng ta nên loại bỏ việc kiểm tra các mô hình và giả định thường xuyên hơn. Sau đó, có lẽ chúng ta sẽ có thể giải quyết một số vấn đề mà người học máy có thể giải quyết nhưng chúng ta không thể!

Ngoài ra còn có là "mô hình thống kê: hai nền văn hóa" giấy bởi Leo Breiman vào năm 2001 mà cho rằng thống kê dựa quá nhiều vào mô hình dữ liệu, và rằng các kỹ thuật máy học đang tiến bộ bằng cách thay vì dựa vào độ chính xác dự đoán của các mô hình.

Có lĩnh vực thống kê đã thay đổi trong thập kỷ qua để đáp ứng với những lời phê bình này? Liệu hai nền văn hóa vẫn còn tồn tại hoặc có số liệu thống kê phát triển để nắm lấy các kỹ thuật học máy như mạng lưới thần kinh và máy vectơ hỗ trợ?


21
Cảm ơn @robin; làm CW. Mặc dù tôi hoàn toàn không coi đây là "tranh luận"; có hai lĩnh vực đã thông báo cho nhau (đây là một sự thật), và câu hỏi là chúng đã phát triển cùng nhau bao nhiêu trong thập kỷ qua.
Shane

16
Thêm một nền văn hóa thứ ba: khai thác dữ liệu . Người học máy và người khai thác dữ liệu nói các ngôn ngữ khá khác nhau. Thông thường, người học máy thậm chí không hiểu điều gì khác biệt trong khai thác dữ liệu. Đối với họ, đó chỉ là việc học tập không giám sát; họ cũng bỏ qua các khía cạnh quản lý dữ liệu và áp dụng khai thác dữ liệu từ thông dụng cho máy học, thêm vào đó làm tăng thêm sự nhầm lẫn.
Anony-Mousse

4
Có một câu hỏi tương tự về khai thác dữ liệu và thống kê
naught101

2
Một cuộc thảo luận thú vị trên blog của Wasserman .

2
Dường như với tôi rằng thực sự liên kết giữa ML và thống kê không được nhấn mạnh đủ. Nhiều sinh viên CS bỏ qua việc học bất cứ điều gì về thống kê trong những ngày thành lập vì họ không hiểu tầm quan trọng của việc thống kê âm thanh có căn cứ trong việc thực hiện các nhiệm vụ ML. Có lẽ thậm chí rất nhiều bộ phận CS trên toàn thế giới cũng sẽ chậm hành động. Nó sẽ chứng minh là sai lầm rất tốn kém và tôi chắc chắn hy vọng sẽ có nhiều nhận thức hơn về tầm quan trọng của kiến ​​thức thống kê trong CS. Về cơ bản ML = Thống kê trong rất nhiều giác quan.
xji

Câu trả lời:


195

Tôi nghĩ rằng câu trả lời cho câu hỏi đầu tiên của bạn chỉ đơn giản là trong lời khẳng định. Hãy xem bất kỳ vấn đề nào của Khoa học thống kê, JASA, Biên niên sử thống kê trong 10 năm qua và bạn sẽ tìm thấy các bài viết về tăng cường, SVM và mạng lưới thần kinh, mặc dù hiện tại khu vực này ít hoạt động hơn. Các nhà thống kê đã chiếm đoạt công việc của Valiant và Vapnik, nhưng mặt khác, các nhà khoa học máy tính đã tiếp thu công việc của Donoho và Talagrand. Tôi không nghĩ có nhiều khác biệt về phạm vi và phương pháp nữa. Tôi chưa bao giờ mua lập luận của Breiman rằng người CS chỉ quan tâm đến việc giảm thiểu tổn thất bằng bất cứ việc gì. Quan điểm đó bị ảnh hưởng nặng nề bởi sự tham gia của ông vào các hội nghị Mạng lưới thần kinh và công việc tư vấn của ông; nhưng PAC, SVM, Boosting có tất cả nền tảng vững chắc. Và ngày nay, không giống như năm 2001, Thống kê quan tâm nhiều hơn đến các thuộc tính mẫu hữu hạn,

Nhưng tôi nghĩ rằng vẫn còn ba sự khác biệt quan trọng sẽ không biến mất sớm.

  1. Các bài báo Thống kê phương pháp vẫn còn quá chính thức và suy diễn, trong khi các nhà nghiên cứu của Machine Learning khoan dung hơn với các phương pháp mới ngay cả khi chúng không đi kèm với một bằng chứng kèm theo;
  2. Cộng đồng ML chủ yếu chia sẻ kết quả và ấn phẩm mới trong các hội nghị và các thủ tục liên quan, trong khi các nhà thống kê sử dụng các bài báo. Điều này làm chậm tiến độ trong Thống kê và xác định các nhà nghiên cứu sao. John Langford có một bài viết hay về chủ đề này một thời gian trước;
  3. Thống kê vẫn bao gồm các lĩnh vực (hiện tại) ít quan tâm đến ML, như thiết kế khảo sát, lấy mẫu, Thống kê công nghiệp, v.v.

20
Bài đăng tuyệt vời! Lưu ý rằng Vapnick đã có bằng tiến sĩ về thống kê. Tôi không chắc có rất nhiều nhà khoa học máy tính biết tên Talagrand và tôi chắc chắn 0,01% trong số họ có thể phát biểu bằng trí nhớ một kết quả của Talagrand :) bạn có thể không? Tôi không biết công việc của Valiant :)
robin girard

Tôi thấy các câu trả lời khác nhau khi nói đến nghiên cứu và ứng dụng học thuật. Tôi nghĩ rằng bạn đã trả lời trong bối cảnh trước đây. Trong các ứng dụng tôi nghĩ rằng sự khác biệt lớn nhất là trong cách các lĩnh vực đang mở rộng. ML thông qua kênh khoa học dữ liệu chấp nhận mọi người có thể viết mã, theo nghĩa đen. Trong thống kê, bạn vẫn cần một bằng cấp chính thức về số liệu thống kê hoặc các trường gần để vào lực lượng lao động.
Aksakal

1
Cả hai mẫu khảo sát và thống kê công nghiệp đều là các lĩnh vực trị giá hàng tỷ đô la (phần phương pháp nghiên cứu khảo sát của Hiệp hội Thống kê Hoa Kỳ là lớn thứ ba sau sinh trắc học và tư vấn, và sau này bao gồm một số lượng lớn các nhà thống kê công nghiệp. , và có một công cụ Six-Sigma riêng biệt và các phương pháp kiểm soát chất lượng khác ngoài kia, không phải tất cả chúng đều hoàn toàn trong thống kê). Cả hai đều có sự thiếu hụt nghiêm trọng của các nhà thống kê khi lực lượng lao động hiện tại của những người bùng nổ trẻ em đến làm việc trong các lĩnh vực này trong những năm 1960 đang nghỉ hưu.
StasK

4
Trong khi một số người có được công việc của họ bằng cách tạo dáng trên thảm đỏ tại các hội nghị, những người khác tìm thấy công việc của họ bằng cách áp dụng các phương pháp trong thế giới thực. The folks sau không có quan tâm nhiều trong việc xác định những ngôi sao dưới mọi hình thức; họ muốn xác định nhiều hơn các phương pháp hoạt động, mặc dù trong nhiều trường hợp, sau một vài năm trong một lĩnh vực nhất định, bạn được dẫn đến cùng một tên nhiều lần.
StasK

Tại sao việc lấy mẫu không phải là mối quan tâm của ML? Điều đó không giống với vấn đề có dữ liệu đào tạo được dán nhãn đúng trong ML phải không?
gerrit

169

Sự khác biệt lớn nhất tôi thấy giữa các cộng đồng là số liệu thống kê nhấn mạnh vào suy luận, trong khi học máy nhấn mạnh dự đoán. Khi bạn thực hiện thống kê, bạn muốn suy luận quá trình mà dữ liệu bạn đã được tạo. Khi bạn học máy, bạn muốn biết làm thế nào bạn có thể dự đoán dữ liệu trong tương lai sẽ trông như thế nào khi viết một số biến.

Tất nhiên là hai chồng chéo. Biết cách dữ liệu được tạo sẽ cho bạn một số gợi ý về việc một người dự đoán tốt sẽ là gì, chẳng hạn. Tuy nhiên, một ví dụ về sự khác biệt là học máy đã xử lý vấn đề p >> n (nhiều tính năng / biến hơn so với mẫu đào tạo) kể từ khi còn nhỏ, trong khi thống kê mới bắt đầu nghiêm trọng về vấn đề này. Tại sao? Bởi vì bạn vẫn có thể đưa ra dự đoán tốt khi p >> n, nhưng bạn không thể đưa ra những suy luận rất tốt về những biến nào thực sự quan trọng và tại sao.


13
Điều này có thể được (đơn giản hóa) quá mức như một sự khác biệt giữa các mô hình thế hệ và phân biệt đối xử?
Wayne

5
"Một người nên trực tiếp giải quyết vấn đề [phân loại] và không bao giờ giải quyết vấn đề chung chung hơn như một bước trung gian ..." - Vapnik
Wayne

3
@mbq: Tôi không có ý ám chỉ rằng không thể suy luận được, chỉ là nó không phải là mục tiêu chính và thường là p >> n trong ML, làm cho nó khó hơn rất nhiều.
dsimcha

2
Tôi hoàn toàn không đồng ý với quan điểm này. Có vẻ sai. Những thứ như mạng thần kinh tái phát cũng cố gắng suy ra các quá trình, và thậm chí tiếp tục và tạo ra các chuỗi mới.
thượng cổ

2
Vậy người máy thì sao? Rô bốt xác suất chủ yếu tập trung vào suy luận và khá nổi trội trong các ứng dụng. Nhưng vẫn là một "hương vị" khác với thống kê (và nhiều kỹ thuật hơn so với máy / học; tức là phân tích / kiểm soát thời gian thực)
GeoMatt22

134

Bayesian: "Xin chào, Người học máy!"

Người thường xuyên: "Xin chào, Người học máy!"

Học máy: "Tôi nghe nói các bạn rất giỏi về công cụ. Đây là một số dữ liệu."

F: "Có, hãy viết ra một mô hình và sau đó tính toán MLE."

B: "Này, F, đó không phải là những gì bạn đã nói với tôi ngày hôm qua! Tôi có một số dữ liệu đơn biến và tôi muốn ước tính phương sai, và tôi đã tính MLE. Sau đó, bạn vồ lấy tôi và bảo tôi chia cho thay vì bởinn1n . "

F: "À đúng, cảm ơn vì đã nhắc nhở tôi. Tôi thường nghĩ rằng tôi nên sử dụng MLE cho mọi thứ, nhưng tôi quan tâm đến các công cụ ước tính không thiên vị , v.v."

ML: "Eh, cái này triết lý về cái gì? Nó sẽ giúp tôi chứ?"

F: "OK, công cụ ước tính là một hộp đen, bạn đưa dữ liệu vào và nó cung cấp cho bạn một số con số. Chúng tôi thường không quan tâm đến cách thức hộp được xây dựng, về những nguyên tắc được sử dụng để thiết kế nó. Ví dụ: Tôi không biết cách lấy quy tắc . "÷(n1)

ML: "Vậy, bạn quan tâm điều gì?"

F: "Đánh giá."

ML: "Tôi thích âm thanh của nó."

F: "Hộp đen là hộp đen. Nếu ai đó tuyên bố một công cụ ước tính cụ thể là công cụ ước tính không thiên vị cho , thì chúng tôi thử lần lượt nhiều giá trị của , tạo ra nhiều mẫu từ mỗi dựa trên một số mô hình giả định, đẩy chúng qua công cụ ước tính và tìm ước tính trung bình . Nếu chúng tôi có thể chứng minh rằng ước tính dự kiến ​​bằng giá trị thực, cho tất cả các giá trị, thì chúng tôi nói rằng nó không thiên vị. "q qθθθ

ML: "Nghe hay đấy! Nghe có vẻ như những người thường xuyên là những người thực dụng. Bạn đánh giá mỗi hộp đen bằng kết quả của nó. Đánh giá là chìa khóa."

F: "Thật vậy! Tôi hiểu các bạn có cách tiếp cận tương tự. Xác thực chéo, hay cái gì đó? Nhưng điều đó nghe có vẻ lộn xộn với tôi."

ML: "Lộn xộn?"

F: "Ý tưởng kiểm tra công cụ ước tính của bạn trên dữ liệu thực có vẻ nguy hiểm đối với tôi. Dữ liệu thực nghiệm bạn sử dụng có thể có tất cả các loại vấn đề với nó và có thể không hoạt động theo mô hình mà chúng tôi đã đồng ý để đánh giá."

ML: "Cái gì? Tôi nghĩ bạn nói rằng bạn đã chứng minh một số kết quả? Rằng công cụ ước tính của bạn sẽ luôn không thiên vị, cho tất cả ."θ

F: "Có. Mặc dù phương pháp của bạn có thể đã hoạt động trên một tập dữ liệu (tập dữ liệu với dữ liệu kiểm tra và dữ liệu thử nghiệm) mà bạn đã sử dụng trong đánh giá của mình, tôi có thể chứng minh rằng phương pháp của tôi sẽ luôn hoạt động."

ML: "Cho tất cả các bộ dữ liệu?"

F: "Không."

ML: "Vì vậy, phương pháp của tôi đã được xác thực chéo trên một tập dữ liệu. Bạn chưa kiểm tra phương pháp của bạn trên bất kỳ tập dữ liệu thực nào?"

F: "Đúng vậy."

ML: "Điều đó đặt tôi vào vị trí dẫn đầu! Phương pháp của tôi tốt hơn phương pháp của bạn. Nó dự đoán ung thư 90% thời gian. 'Bằng chứng' của bạn chỉ có giá trị nếu toàn bộ dữ liệu hành xử theo mô hình mà bạn giả định."

F: "Emm, yeah, tôi cho là vậy."

ML: "Và khoảng thời gian đó có phạm vi bảo hiểm 95% . Nhưng tôi không ngạc nhiên nếu nó chỉ chứa giá trị chính xác của 20% thời gian?"θ

F: "Điều đó đúng. Trừ khi dữ liệu thực sự là bình thường (hoặc bất cứ điều gì), bằng chứng của tôi là vô ích."

ML: "Vì vậy, đánh giá của tôi đáng tin cậy và toàn diện hơn? Nó chỉ hoạt động trên các bộ dữ liệu tôi đã thử cho đến nay, nhưng ít nhất chúng là bộ dữ liệu thực sự, mụn cóc và tất cả. Có bạn, cố gắng khẳng định bạn là người bảo thủ hơn 'và' kỹ lưỡng 'và rằng bạn quan tâm đến việc kiểm tra mô hình và công cụ. "

B: (xen vào) "Này các bạn, Xin lỗi vì làm gián đoạn. Tôi rất muốn bước vào và cân bằng mọi thứ, có lẽ thể hiện một số vấn đề khác, nhưng tôi thực sự thích xem đồng nghiệp thường xuyên của tôi vặn vẹo."

F: "Ái chà!"

ML: "OK, trẻ em. Đó là tất cả về đánh giá. Công cụ ước tính là một hộp đen. Dữ liệu đi vào, dữ liệu xuất hiện. Chúng tôi phê duyệt hoặc không chấp thuận công cụ ước tính dựa trên cách thức thực hiện đánh giá. Chúng tôi không quan tâm về 'công thức' hoặc 'nguyên tắc thiết kế' được sử dụng. "

F: "Vâng. Nhưng chúng tôi có những ý tưởng rất khác nhau về việc đánh giá nào là quan trọng. ML sẽ thực hiện kiểm tra và kiểm tra dữ liệu thực. Trong khi đó tôi sẽ thực hiện một đánh giá tổng quát hơn (vì nó liên quan đến một bằng chứng áp dụng rộng rãi) và cũng hạn chế hơn (vì tôi không biết liệu tập dữ liệu của bạn có thực sự được rút ra từ các giả định mô hình hóa mà tôi sử dụng trong khi thiết kế đánh giá của mình không.) "

ML: "Bạn sử dụng đánh giá gì, B?"

F: (xen vào) "Này. Đừng làm tôi cười. Anh ấy không đánh giá bất cứ điều gì. Anh ấy chỉ sử dụng niềm tin chủ quan của mình và chạy theo nó. Hoặc một cái gì đó."

B: "Đó là cách giải thích phổ biến. Nhưng cũng có thể định nghĩa chủ nghĩa Bayes bằng các đánh giá ưa thích. Sau đó, chúng tôi có thể sử dụng ý tưởng rằng không ai trong chúng tôi quan tâm những gì trong hộp đen, chúng tôi chỉ quan tâm đến các cách khác nhau để đánh giá."

B tiếp tục: "Ví dụ cổ điển: Xét nghiệm y tế. Kết quả xét nghiệm máu là dương tính hoặc âm tính. Một người thường xuyên sẽ quan tâm đến những người khỏe mạnh, tỷ lệ nào có kết quả âm tính. Và tương tự, tỷ lệ người bị bệnh sẽ có kết quả dương tính. Người thường xuyên sẽ tính toán những phương pháp này cho từng phương pháp xét nghiệm máu đang được xem xét và sau đó khuyên chúng tôi nên sử dụng xét nghiệm có cặp điểm số tốt nhất. "

F: "Chính xác. Bạn muốn gì hơn nữa?"

B: "Thế còn những cá nhân có kết quả xét nghiệm dương tính thì sao? Họ sẽ muốn biết 'trong số những người có kết quả dương tính, có bao nhiêu người sẽ bị bệnh?' và 'trong số những người nhận được kết quả tiêu cực, có bao nhiêu người khỏe mạnh?' "

ML: "À đúng, có vẻ như là một cặp câu hỏi hay hơn."

F: "HỌ!"

B: "Chúng ta lại đi. Anh ấy không thích nơi này sẽ diễn ra."

ML: "Đây là về 'linh mục', phải không?"

F: "NGAY".

B: "Dù sao, vâng, bạn đúng ML. Để tính tỷ lệ những người có kết quả tích cực bị bệnh, bạn phải thực hiện một trong hai điều. Một lựa chọn là chạy thử nghiệm trên nhiều người và chỉ cần quan sát tỷ lệ có liên quan. Chẳng hạn, có bao nhiêu người trong số họ chết vì căn bệnh này. "

ML: "Nghe có vẻ giống như những gì tôi làm. Sử dụng đào tạo và kiểm tra."

B: "Nhưng bạn có thể tính toán những con số này trước, nếu bạn sẵn sàng đưa ra một giả định về tỷ lệ ốm đau trong dân số. Người thường xuyên cũng đưa ra các phép tính của mình trước, nhưng không sử dụng tỷ lệ Bệnh cấp độ dân số này."

F: "NHỮNG ĐÁNH GIÁ HẤP DẪN HƠN."

B: "Ôi im đi. Trước đó, bạn đã bị phát hiện. ML phát hiện ra rằng bạn cũng thích những giả định vô căn cứ như bất kỳ ai. Xác suất bảo hiểm 'đã được chứng minh' của bạn sẽ không chồng chất trong thế giới thực trừ khi tất cả các giả định của bạn đứng lên. Tại sao giả định trước của tôi rất khác nhau? Bạn gọi tôi là điên, nhưng bạn giả vờ giả định của bạn là công việc của một phân tích bảo thủ, vững chắc, không giả định. "

B (tiếp theo): "Dù sao, ML, như tôi đã nói. Bayes thích một kiểu đánh giá khác. Chúng tôi quan tâm nhiều hơn đến việc điều chỉnh dữ liệu quan sát và tính toán độ chính xác của công cụ ước tính của chúng tôi. Chúng tôi không thể thực hiện đánh giá này mà không sử dụng một ưu tiên. Nhưng điều thú vị là, một khi chúng ta quyết định hình thức đánh giá này và một khi chúng ta chọn trước, chúng ta có một 'công thức' tự động để tạo ra một công cụ ước tính thích hợp. Người thường xuyên không có công thức như vậy. công cụ ước lượng không thiên vị cho một mô hình phức tạp, anh ta không có cách tự động nào để xây dựng một công cụ ước tính phù hợp. "

ML: "Và bạn làm gì? Bạn có thể tự động xây dựng một công cụ ước tính?"

B: "Có. Tôi không có cách tự động để tạo một công cụ ước lượng không thiên vị, bởi vì tôi nghĩ rằng thiên vị là một cách tồi để đánh giá một công cụ ước tính. Nhưng tôi đã đưa ra ước tính dựa trên dữ liệu có điều kiện mà tôi thích, và trước đó, tôi có thể kết nối trước và khả năng cung cấp cho tôi công cụ ước tính. "

ML: "Vì vậy, dù sao đi nữa, chúng ta hãy tóm tắt lại. Tất cả chúng ta đều có những cách khác nhau để đánh giá các phương pháp của mình và có lẽ chúng ta sẽ không bao giờ đồng ý về phương pháp nào là tốt nhất."

B: "Chà, điều đó không công bằng. Chúng tôi có thể trộn và kết hợp chúng. Nếu bất kỳ ai trong chúng tôi có dữ liệu đào tạo được dán nhãn tốt, có lẽ chúng tôi nên kiểm tra chống lại nó. Và nói chung tất cả chúng tôi nên kiểm tra càng nhiều giả định càng tốt. Và một số 'người thường xuyên 'bằng chứng cũng có thể thú vị, dự đoán hiệu suất theo một số mô hình tạo dữ liệu được cho là. "

F: "Vâng các bạn. Hãy thực dụng về đánh giá. Thực ra, tôi sẽ không bị ám ảnh bởi các tính chất mẫu vô hạn. Tôi đã yêu cầu các nhà khoa học đưa cho tôi một mẫu vô hạn, nhưng họ vẫn chưa làm được. đã đến lúc tôi tập trung trở lại vào các mẫu hữu hạn. "

ML: "Vì vậy, chúng tôi chỉ có một câu hỏi cuối cùng. Chúng tôi đã tranh luận rất nhiều về cách đánh giá các phương thức của chúng tôi, nhưng làm thế nào để chúng tôi tạo ra các phương thức của mình."

B: "Ah. Như tôi đã nhận được trước đó, người Bayes có phương pháp chung mạnh mẽ hơn. Nó có thể phức tạp, nhưng chúng tôi luôn có thể viết một số loại thuật toán (có thể là một dạng MCMC ngây thơ) sẽ lấy mẫu từ sau của chúng tôi. "

F (xen kẽ): "Nhưng nó có thể có sai lệch."

B: "Vậy có thể là phương pháp của bạn. Tôi có cần nhắc nhở bạn rằng MLE thường bị sai lệch không? Đôi khi, bạn gặp khó khăn rất lớn trong việc tìm kiếm các công cụ ước lượng không thiên vị, và ngay cả khi bạn có một công cụ ước tính ngu ngốc (đối với một số mô hình thực sự phức tạp) sẽ nói phương sai là tiêu cực. Và bạn gọi đó là không thiên vị. Không thiên vị, vâng. Nhưng hữu ích, không! "

ML: "OK các bạn. Bạn đang phát cuồng trở lại. Hãy để tôi hỏi bạn một câu, F. Bạn đã bao giờ so sánh sự thiên vị của phương pháp của bạn với sự thiên vị của phương pháp B, khi cả hai bạn cùng làm việc với cùng một vấn đề chưa?"

F: "Vâng. Trên thực tế, tôi ghét phải thừa nhận điều đó, nhưng cách tiếp cận của B đôi khi có độ lệch và MSE thấp hơn so với ước tính của tôi!"

ML: "Bài học ở đây là, trong khi chúng tôi không đồng ý một chút về đánh giá, không ai trong chúng tôi có độc quyền về cách tạo công cụ ước tính có các thuộc tính mà chúng tôi muốn."

B: "Vâng, chúng tôi nên đọc công việc của nhau nhiều hơn một chút. Chúng tôi có thể truyền cảm hứng cho nhau cho những người ước tính. Chúng tôi có thể thấy rằng những người ước tính khác làm việc rất tốt, vượt trội, về những vấn đề của chính chúng tôi."

F: "Và tôi nên ngừng ám ảnh về sự thiên vị. Một người ước lượng không thiên vị có thể có phương sai vô lý. Tôi cho rằng tất cả chúng ta phải 'chịu trách nhiệm' về những lựa chọn mà chúng ta đưa ra trong cách đánh giá và các tính chất mà chúng ta muốn thấy trong các công cụ ước tính của mình. Chúng ta không thể cản trở một triết lý. Hãy thử tất cả các đánh giá bạn có thể. Và tôi sẽ tiếp tục lén nhìn vào văn học Bayes để có ý tưởng mới cho những người ước tính! "

B: "Trên thực tế, nhiều người không thực sự biết triết lý của chính họ là gì. Tôi thậm chí không chắc chắn về bản thân mình. Nếu tôi sử dụng một công thức Bayes, và sau đó chứng minh một số kết quả lý thuyết tốt đẹp, điều đó không có nghĩa là tôi Một người thường xuyên quan tâm đến các bằng chứng trên về hiệu suất, anh ta không quan tâm đến công thức nấu ăn. Và nếu tôi thực hiện một số bài kiểm tra thử nghiệm (hoặc tốt), điều đó có nghĩa là tôi là người học máy? "

ML: "Có vẻ như tất cả chúng ta đều khá giống nhau."


8
Đối với những độc giả sẽ đọc phản hồi này đến cuối, tôi sẽ đề nghị thêm một thông báo mang đi ngắn gọn (và để cung cấp trích dẫn thích hợp nếu áp dụng).
chl

Với -2 phiếu bầu cho đến nay, tôi nghĩ rằng tôi không thể làm gì nhiều để cứu nó :) Tôi nghĩ rằng kết thúc, nơi tất cả họ đồng ý với nhau và thừa nhận họ có thể sử dụng phương pháp của nhau mà không phải lo lắng về triết lý của nhau, là một "Tin nhắn mang đi".
Aaron McDaid

10
Không cần trích dẫn. Tôi chỉ tự làm nó lên. Có lẽ nó không được thông tin nhiều, nó dựa trên những diễn giải (sai lầm) của riêng tôi với một số ít đồng nghiệp trong nhiều năm qua.
Aaron McDaid

3
Tôi đã từng thấy cuộc đối thoại như vậy (ngắn hơn), và tôi thấy chúng thú vị. Tôi cũng quan tâm đến các downvote, do đó tôi đề nghị đặt một bản tóm tắt ngắn gọn ở đầu để thúc đẩy người đọc đọc phần còn lại của bài viết của bạn.
chl

3
13/10 sẽ tranh luận lại
410_Gone

67

Trong một cuộc thảo luận như vậy, tôi luôn nhớ lại câu nói nổi tiếng của Ken Thompson

Khi nghi ngờ, sử dụng vũ lực.

Trong trường hợp này, học máy là một sự cứu rỗi khi các giả định khó nắm bắt; hoặc ít nhất là tốt hơn nhiều so với việc đoán sai.


2
Với khả năng tính toán tăng lên trong những năm này và bộ tự động và các kỹ thuật liên quan, điều này đúng hơn bao giờ hết.
Firebug

Để giải quyết vấn đề, các kỹ sư sử dụng các công thức, kỹ thuật và quy trình mà họ đã sử dụng trước đây và chắc chắn về thành công của họ ... Thông thường, nó được gọi là sử dụng Brute Force hoặc sử dụng Quy tắc ngón tay cái ... Công thức, kỹ thuật mới và các quy trình được sử dụng theo quy trình từng bước ... Hoạt động kỹ thuật là hoạt động nhóm - ở đâu Kỹ sư, Kỹ thuật viên và Lao động thủ công làm việc cùng nhau. Khi một quy trình mới được giới thiệu, cần có thời gian để đào tạo Kỹ thuật viên và Lao động với quy trình này. Vì vậy, hiện đại hóa được giới thiệu trong một quá trình tiến hóa.
b.sahu

64

Những gì thực thi sự tách biệt nhiều hơn nên có là từ vựng của mỗi môn học.

Có nhiều trường hợp ML sử dụng một thuật ngữ và Thống kê sử dụng một thuật ngữ khác - nhưng cả hai đều đề cập đến cùng một điều - tốt, bạn sẽ mong đợi điều đó và nó không gây ra bất kỳ sự nhầm lẫn vĩnh viễn nào (ví dụ: tính năng / thuộc tính so với dự kiến các biến, hoặc mạng thần kinh / MLP so với theo đuổi chiếu).

Điều rắc rối hơn nhiều là cả hai ngành học đều sử dụng cùng một thuật ngữ để chỉ các khái niệm hoàn toàn khác nhau.

Một vài ví dụ:

Hàm hạt nhân

Trong ML, các hàm kernel được sử dụng trong các trình phân loại (ví dụ: SVM) và tất nhiên trong các máy kernel. Thuật ngữ này đề cập đến một hàm đơn giản ( cosine, sigmoidal, rbf, đa thức ) để ánh xạ phân tách phi tuyến tính đến một không gian đầu vào mới, do đó dữ liệu hiện có thể phân tách tuyến tính trong không gian đầu vào mới này. (so với việc sử dụng mô hình phi tuyến tính để bắt đầu).

Trong thống kê, một hàm nhân là hàm trọng số được sử dụng trong ước tính mật độ để làm mịn đường cong mật độ.

hồi quy

Trong ML, các thuật toán dự đoán hoặc triển khai các thuật toán trả về nhãn "phân loại" nhãn (đôi khi) được gọi là máy --eg, máy vectơ hỗ trợ , máy kernel . Đối tác của máy là các biến hồi quy , trả về một điểm (biến liên tục) - ví dụ: hồi quy véc tơ hỗ trợ .

Hiếm khi các thuật toán có các tên khác nhau dựa trên chế độ - ví dụ, MLP là thuật ngữ được sử dụng cho dù nó trả về nhãn lớp hoặc biến liên tục.

Trong Thống kê, hồi quy , nếu bạn đang cố gắng xây dựng một mô hình dựa trên dữ liệu thực nghiệm, để dự đoán một số biến trả lời dựa trên một hoặc nhiều biến giải thích hoặc nhiều biến - thì bạn đang thực hiện phân tích hồi quy . Việc đầu ra là biến liên tục hay nhãn lớp không thành vấn đề (ví dụ: hồi quy logistic). Vì vậy, ví dụ, hồi quy bình phương nhỏ nhất đề cập đến một mô hình trả về giá trị liên tục; mặt khác, hồi quy logistic, trả về một ước tính xác suất mà sau đó được phân tách thành nhãn lớp.

Thiên kiến

Trong ML, thuật ngữ sai lệch trong thuật toán giống hệt về mặt khái niệm với thuật ngữ chặn được sử dụng bởi các nhà thống kê trong mô hình hồi quy.

Trong Thống kê, sai lệch là lỗi không ngẫu nhiên - nghĩa là, một số hiện tượng ảnh hưởng đến toàn bộ tập dữ liệu theo cùng một hướng, điều này có nghĩa là loại lỗi này không thể được loại bỏ bằng cách lấy mẫu lại hoặc tăng kích thước mẫu.


19
Trong thống kê, sai lệch không giống như lỗi. Lỗi hoàn toàn là ngẫu nhiên, sai lệch là không. Bạn có thành kiến ​​khi bạn biết rằng giá trị dự kiến ​​của ước tính của bạn không bằng giá trị thực.
Joris Meys

2
(@Joris Hoặc ngay cả khi bạn không biết điều đó! Nghe có vẻ nghiêm trọng, nhưng chỉ cần tìm hiểu xem liệu sai lệch có thể là một vấn đề thực tế đáng kể hay không. thiên vị?) Đó là một quan niệm sai lầm phổ biến rằng thiên vị là một tính năng của dữ liệu, không phải là một tài sản của một người ước tính; Tôi tự hỏi nếu nó bắt nguồn từ việc sử dụng phi kỹ thuật như "khảo sát đó là sai lệch!" Các nhà thống kê cũng không phải lúc nào cũng nhất quán về các thuật ngữ như "lỗi": lỗi bình phương trung bình (của công cụ ước tính) bao gồm thành phần bình phương thiên vị, do đó "lỗi" không "hoàn toàn ngẫu nhiên".
Cá bạc

2
Tôi nghĩ thuật ngữ "cỗ máy" trong các SVM nên được quy cho sở thích cá nhân của Vladimir Vapnic. Ngày nay, tôi không nghĩ rằng nó không được sử dụng để đặt tên cho bất kỳ phân loại khác.
iliasfl

3
E[X^X]

1
[0,1]1

25

Machine Learning dường như có cơ sở của nó trong thực tiễn - một quan sát thực tế hoặc mô phỏng thực tế. Ngay cả trong các số liệu thống kê, "kiểm tra các mô hình và giả định" không suy nghĩ có thể dẫn đến việc loại bỏ các phương pháp hữu ích.

Ví dụ, nhiều năm trước, mô hình Phá sản thương mại (và hoạt động) đầu tiên được triển khai bởi văn phòng tín dụng đã được tạo ra thông qua mô hình hồi quy tuyến tính cũ đơn giản nhắm đến kết quả 0-1. Về mặt kỹ thuật, đó là một cách tiếp cận tồi, nhưng thực tế, nó đã hoạt động.


4
nó tương tự như sử dụng các mô hình hấp dẫn hành tinh cho giao thông đô thị. Tôi thấy điều đó thật vô lý, nhưng nó thực sự hoạt động yên tĩnh một cách chính xác
dassouki

5
Tôi quan tâm đến tuyên bố cuối cùng: "mô hình phá sản có sẵn trên thị trường (và đang hoạt động) đầu tiên được thực hiện bởi văn phòng tín dụng đã được tạo ra thông qua mô hình hồi quy tuyến tính cũ đơn giản nhắm đến kết quả 0-1". Đó là mô hình nào? Tôi tin rằng mô hình đầu tiên là RiskCalc của Moody, và ngay cả phiên bản đầu tiên là mô hình hồi quy logistic. Các nhà phát triển của mô hình đó không phải là người CS có nền tảng về ML, mà là về kinh tế lượng.
vui vẻ

2
Tôi cá là họ đã sử dụng phân tích phân biệt trước khi hồi quy logistic, vì DA đã được phát minh tốt trước LR
Neil McGuigan

1
@gappy Tôi đang nghĩ đến mô hình Phá sản tiêu dùng MDS cho hồ sơ của phòng tín dụng cá nhân.RiskCalc là một đánh giá rủi ro tín dụng cho các công ty. Mô hình Phá sản MDS khác với các mô hình rủi ro FICO thời đó ở chỗ mục tiêu là Phá sản và KHÔNG phạm pháp tín dụng (chẳng hạn như điểm số ban đầu của FICO). Nhận xét của tôi ít nói về các chi tiết cụ thể của ML trong bối cảnh đó (vì nó hầu như không được sử dụng - tại thời điểm mô hình BK được xây dựng lần đầu tiên), nhưng liên quan đến thực tế là hiệu quả thực tế không nhất thiết liên quan đến hạn chế lý thuyết hoặc vi phạm giả định.
Jay Stevens

Chỉ tò mò tại sao về mặt kỹ thuật nó là một cách tiếp cận xấu. Bởi vì nó đưa ra quá nhiều giả định đơn giản hóa sẽ khác rất nhiều so với thực tế?
xji

25

Sự khác biệt lớn nhất mà tôi đã nhận thấy trong năm qua là:

  • Các chuyên gia về máy học không dành đủ thời gian cho các nguyên tắc cơ bản và nhiều người trong số họ không hiểu được việc ra quyết định tối ưu và quy tắc chấm điểm chính xác phù hợp. Họ không hiểu rằng các phương pháp dự đoán không có giả định đòi hỏi kích thước mẫu lớn hơn so với các phương pháp đó.
  • Chúng tôi thống kê dành quá ít thời gian để học thực hành lập trình tốt và ngôn ngữ tính toán mới. Chúng ta quá chậm để thay đổi khi nói đến điện toán và áp dụng các phương pháp mới từ tài liệu thống kê.

2
Một lưu ý khác là các nhà thống kê chúng ta có xu hướng giới hạn bản thân trong các phương pháp mà chúng ta có thể chứng minh bằng toán học sẽ hoạt động tốt (theo một loạt các giả định có thể vô lý), đặc biệt là khi nói đến các ấn phẩm. Những người học máy rất vui khi sử dụng các phương pháp thực nghiệm hoạt động tốt trên một vài bộ dữ liệu. Kết quả là, tôi nghĩ rằng văn học ML di chuyển nhanh hơn nhiều nhưng cũng đòi hỏi nhiều hơn về sự thông minh.
Vách đá AB

24

Tôi không đồng ý với câu hỏi này vì nó cho thấy rằng máy học và thống kê là khác nhau hoặc khoa học mâu thuẫn .... khi điều ngược lại là đúng!

học máy sử dụng rộng rãi các số liệu thống kê ... một cuộc khảo sát nhanh về bất kỳ gói phần mềm khai thác dữ liệu hoặc máy học nào sẽ tiết lộ các kỹ thuật phân cụm như k-mean cũng được tìm thấy trong thống kê .... cũng sẽ hiển thị các kỹ thuật giảm kích thước như phân tích thành phần chính cũng là một kỹ thuật thống kê ... thậm chí hồi quy logistic còn khác.

Theo quan điểm của tôi, sự khác biệt chính là các thống kê truyền thống đã được sử dụng để đưa ra một lý thuyết được hình thành từ trước và thông thường phân tích được thiết kế xung quanh lý thuyết chính đó. Trường hợp với khai thác dữ liệu hoặc học máy, cách tiếp cận ngược lại thường là chuẩn mực trong đó chúng ta có kết quả, chúng ta chỉ muốn tìm cách dự đoán nó hơn là đặt câu hỏi hoặc hình thành lý thuyết đây là kết quả!


21

Tôi đã nói về vấn đề này tại một diễn đàn khác của Tập đoàn tư vấn thống kê ASA. Phản ứng của tôi cụ thể hơn là khai thác dữ liệu nhưng cả hai song hành cùng nhau. Chúng tôi các nhà thống kê đã đánh hơi mũi của chúng tôi tại các công ty khai thác dữ liệu, nhà khoa học máy tính và kỹ sư. Đó là sai. Tôi nghĩ một phần lý do nó xảy ra là vì chúng ta thấy một số người trong các lĩnh vực đó bỏ qua bản chất ngẫu nhiên của vấn đề của họ. Một số nhà thống kê gọi dữ liệu khai thác dữ liệu rình mò hoặc đánh bắt dữ liệu. Một số người lạm dụng và sử dụng sai các phương pháp nhưng các nhà thống kê đã tụt hậu trong việc khai thác dữ liệu và học máy vì chúng tôi vẽ chúng bằng một bàn chải rộng. Một số kết quả thống kê lớn đã đến từ bên ngoài lĩnh vực thống kê. Tăng cường là một ví dụ quan trọng. Nhưng các nhà thống kê như Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman và những người khác đã nhận được nó và sự lãnh đạo của họ đã đưa các nhà thống kê vào việc phân tích các vi mô và các vấn đề suy luận quy mô lớn khác. Vì vậy, trong khi các nền văn hóa có thể không bao giờ kết nối, giờ đây có thêm sự hợp tác và hợp tác giữa các nhà khoa học máy tính, kỹ sư và nhà thống kê.


19

Vấn đề thực sự là câu hỏi này là sai lầm. Nó không phải là máy học so với thống kê, nó là máy học chống lại tiến bộ khoa học thực sự. Nếu một thiết bị học máy đưa ra dự đoán đúng 90% thời gian nhưng tôi không thể hiểu "tại sao", thì sự đóng góp của máy học cho khoa học nói chung là gì? Hãy tưởng tượng nếu các kỹ thuật học máy được sử dụng để dự đoán vị trí của các hành tinh: sẽ có rất nhiều người tự mãn nghĩ rằng họ có thể dự đoán chính xác một số điều với SVM của họ, nhưng họ thực sự biết gì về vấn đề họ gặp phải trong tay ? Rõ ràng, khoa học không thực sự tiến bộ bằng các dự đoán số, nó tiến bộ bằng các mô hình (tinh thần, toán học), những người cho chúng ta thấy vượt xa hơn chỉ là những con số.


1
+1 Điều này nhắc nhở tôi về việc sử dụng các mô hình trong kinh tế. Các mô hình kinh tế lượng được xây dựng cho một vài mục đích; cụ thể là phân tích chính sách và dự báo. Nói chung, không ai thực sự quan tâm đến dự báo - đó là mô phỏng chính sách quan trọng nhất. Như David Hendry đã nói, mô hình dự báo tốt nhất không nhất thiết là mô hình tốt nhất để phân tích chính sách - và ngược lại. Cần lùi lại và suy nghĩ ... mục đích của mô hình là gì? Những câu hỏi chúng ta đang cố gắng trả lời? Và làm thế nào điều này phù hợp với việc thực hiện những khám phá thực nghiệm .
Graeme Walsh

17

Học thống kê (AKA Machine Learning) có nguồn gốc từ nhiệm vụ tạo ra phần mềm bằng cách "học từ các ví dụ". Có nhiều nhiệm vụ mà chúng tôi muốn máy tính thực hiện (ví dụ: thị giác máy tính, nhận dạng giọng nói, điều khiển robot) rất khó lập trình nhưng rất dễ để cung cấp các ví dụ đào tạo. Cộng đồng nghiên cứu học máy / học thống kê đã phát triển các thuật toán để học các chức năng từ các ví dụ này. Chức năng mất thường liên quan đến nhiệm vụ hiệu suất (tầm nhìn, nhận dạng giọng nói). Và tất nhiên, chúng tôi không có lý do gì để tin rằng có bất kỳ "mô hình" đơn giản nào nằm dưới các nhiệm vụ này (bởi vì nếu không chúng tôi sẽ tự mình mã hóa chương trình đơn giản đó). Do đó, toàn bộ ý tưởng thực hiện suy luận thống kê không có ý nghĩa gì. Mục tiêu là dự đoán chính xác và không có gì khác.

Theo thời gian, các lực lượng khác nhau bắt đầu lái những người học máy để tìm hiểu thêm về thống kê. Một là cần kết hợp kiến ​​thức nền và các ràng buộc khác trong quá trình học tập. Điều này khiến mọi người xem xét các mô hình xác suất tổng quát, bởi vì những điều này giúp dễ dàng kết hợp kiến ​​thức trước thông qua cấu trúc của mô hình và các linh mục về các tham số và cấu trúc mô hình. Điều này dẫn đến lĩnh vực khám phá các tài liệu thống kê phong phú trong lĩnh vực này. Một lực lượng khác là phát hiện ra hiện tượng quá mức. Điều này khiến cộng đồng ML tìm hiểu về xác nhận chéo và chính quy hóa và một lần nữa chúng tôi phát hiện ra tài liệu thống kê phong phú về chủ đề này.

Tuy nhiên, trọng tâm của hầu hết các công việc học máy là tạo ra một hệ thống thể hiện hiệu suất nhất định thay vì suy luận về một quy trình chưa biết. Đây là sự khác biệt cơ bản giữa ML và thống kê.


15

Lý tưởng nhất là người ta phải có kiến ​​thức kỹ lưỡng về cả thống kê và học máy trước khi cố gắng trả lời câu hỏi của mình. Tôi rất là một người mới đến ML, vì vậy hãy tha thứ cho tôi nếu wat tôi nói là ngây thơ.

Tôi có kinh nghiệm hạn chế trong các SVM và cây hồi quy. Điều gây ấn tượng với tôi khi thiếu ML theo quan điểm thống kê là một khái niệm suy luận được phát triển tốt.

Suy luận trong ML dường như sôi sục gần như hoàn toàn với độ chính xác dự đoán, như được đo bằng (ví dụ) lỗi phân loại trung bình (MCE) hoặc tỷ lệ lỗi cân bằng (BER) hoặc tương tự. ML có thói quen phân chia dữ liệu ngẫu nhiên (thường là 2: 1) thành tập huấn luyện và tập kiểm tra. Các mô hình phù hợp bằng cách sử dụng tập huấn luyện và hiệu suất (MCE, BER, v.v.) được đánh giá bằng cách sử dụng bộ kiểm tra. Đây là một thực tiễn xuất sắc và chỉ đang dần dần đi vào thống kê chính thống.

ML cũng sử dụng nhiều phương pháp lấy mẫu lại (đặc biệt là xác thực chéo), có nguồn gốc xuất hiện trong thống kê.

Tuy nhiên, ML dường như thiếu một khái niệm suy luận được phát triển đầy đủ - vượt quá độ chính xác dự đoán. Điều này có hai kết quả.

1) Dường như không có sự đánh giá cao rằng bất kỳ dự đoán nào (ước tính tham số, v.v.) đều có một lỗi ngẫu nhiên và có lẽ là lỗi hệ thống (sai lệch). Các nhà thống kê sẽ chấp nhận rằng đây là một phần không thể tránh khỏi của dự đoán và sẽ thử và ước tính lỗi. Các kỹ thuật thống kê sẽ thử và tìm một ước tính có sai lệch tối thiểu và sai số ngẫu nhiên. Các kỹ thuật của họ thường được điều khiển bởi một mô hình của quy trình dữ liệu, nhưng không phải lúc nào cũng vậy (ví dụ: Bootstrap).

2) Dường như không có sự hiểu biết sâu sắc về ML về các giới hạn của việc áp dụng mô hình cho dữ liệu mới cho một mẫu mới từ cùng một quần thể (mặc dù tôi đã nói trước đó về phương pháp tập dữ liệu kiểm tra đào tạo). Các kỹ thuật thống kê khác nhau, trong số đó có xác nhận chéo và các điều khoản phạt được áp dụng cho các phương pháp dựa trên khả năng, hướng dẫn các nhà thống kê trong sự đánh đổi giữa độ phức tạp và độ phức tạp của mô hình. Hướng dẫn như vậy trong ML có vẻ nhiều ad hoc.

Tôi đã thấy một số bài báo trong ML trong đó xác thực chéo được sử dụng để tối ưu hóa sự phù hợp của nhiều mô hình trên tập dữ liệu huấn luyện - tạo ra sự phù hợp tốt hơn và tốt hơn khi độ phức tạp của mô hình tăng lên. Có vẻ như đánh giá thấp rằng những lợi ích nhỏ bé trong độ chính xác không đáng để thêm vào sự phức tạp và điều này tự nhiên dẫn đến sự phù hợp quá mức. Sau đó, tất cả các mô hình được tối ưu hóa này được áp dụng cho bộ kiểm tra dưới dạng kiểm tra hiệu suất dự đoán và để ngăn chặn quá mức. Hai điều đã bị lãng quên (ở trên). Hiệu suất dự đoán sẽ có một thành phần ngẫu nhiên. Thứ hai, nhiều thử nghiệm đối với một bộ thử nghiệm sẽ lại dẫn đến kết quả khớp quá mức. Mô hình "tốt nhất" sẽ được học viên ML chọn mà không có sự đánh giá đầy đủ mà anh ấy / cô ấy đã chọn được từ một nhận thức về nhiều ngoại lệ có thể có của thí nghiệm này.

Bất kỳ giá trị 2 xu của tôi. Chúng ta có nhiều điều để học hỏi lẫn nhau.


2
nhận xét của bạn về Mô hình "tốt nhất" sẽ được học viên ML chọn lựa ... cũng áp dụng tương tự cho thống kê chính thống. Đối với hầu hết các quy trình lựa chọn mô hình, người ta chỉ cần điều kiện trên mô hình cuối cùng như thể không có tìm kiếm không gian mô hình nào được thực hiện (với điều kiện trung bình mô hình đó là khá mới). Vì vậy, tôi không nghĩ rằng bạn có thể sử dụng nó như một "câu lạc bộ" để đánh bại học viên ML, để nói chuyện.
xác suất

Là một học viên ML, tôi không nhận ra bức tranh bạn đang vẽ. Tài liệu ML hầu như là tất cả về các biến thể của chính quy hóa, MDL, Bayesian, SRM và các phương pháp khác để kiểm soát sự phức tạp của mô hình. Từ chỗ tôi ngồi, dường như các phương pháp kiểm soát độ phức tạp của stat ít cấu trúc hơn, nhưng đó là sự thiên vị đối với bạn.
Muhammad Alkarouri

13

Câu hỏi này cũng có thể được mở rộng cho cái gọi là siêu văn hóa khoa học dữ liệu năm 2015 David Donoho, bài báo 50 năm của Khoa học dữ liệu , nơi ông đối mặt với các quan điểm khác nhau từ thống kê và khoa học máy tính (bao gồm cả học máy), ví dụ như quan điểm trực tiếp (từ những người khác nhau) sao cho:

  • Tại sao chúng ta cần khoa học dữ liệu khi chúng ta có số liệu thống kê trong nhiều thế kỷ?
  • Khoa học dữ liệu là số liệu thống kê.
  • Khoa học dữ liệu mà không có số liệu thống kê là có thể, thậm chí là mong muốn.
  • Thống kê là phần ít quan trọng nhất của khoa học dữ liệu.

và các loại với các xem xét lịch sử, triết học, ví dụ:

Thật đáng ngạc nhiên là khi tôi xem lại một bài thuyết trình về khoa học dữ liệu ngày nay, trong đó các số liệu thống kê được đưa ra một cách khá ngắn gọn, tôi không thể nhận ra rằng các công cụ, ví dụ và ý tưởng cơ bản được dạy như khoa học dữ liệu là tất cả nghĩa đen được phát minh bởi một người được đào tạo trong Ph.D. thống kê và trong nhiều trường hợp, phần mềm thực tế đang được sử dụng được phát triển bởi người có bằng MA hoặc Ph.D. trong thống kê. Số lượng tích lũy của các nhà thống kê qua nhiều thế kỷ chỉ là quá sức để được viết hoàn toàn và không thể bị che giấu trong việc giảng dạy, nghiên cứu và thực hiện Khoa học dữ liệu.

Bài tiểu luận này đã tạo ra nhiều phản hồi và đóng góp cho cuộc tranh luận.


3
Đây trông giống như một bài báo đáng được đề cập trong số liệu thống kê chủ đề phổ biến gần đây.stackexchange.com/questions/195034 , tôi nghĩ không ai đề cập đến nó ở đó.
amip

1
Tôi nghĩ rằng nếu bạn đăng một câu trả lời mới ở đó tóm tắt bài báo này, nó sẽ rất tuyệt.
amip

Tôi sẽ, và cần tóm tắt tất cả các câu trả lời cho bản thân mình trước tiên
Laurent Duval

12

Tôi thực sự không biết sự khác biệt về khái niệm / lịch sử giữa học máy và thống kê là gì nhưng tôi chắc chắn điều đó không rõ ràng ... và tôi không thực sự quan tâm đến việc tôi là người học máy hay thống kê, tôi nghĩ 10 năm sau bài báo của Breiman, rất nhiều người đều ...

Dù sao, tôi thấy câu hỏi thú vị về độ chính xác dự đoán của các mô hình . Chúng ta phải nhớ rằng không phải lúc nào cũng có thể đo lường độ chính xác của một mô hình và chính xác hơn là chúng ta thường ngầm thực hiện một số mô hình khi đo lỗi.

Ví dụ, sai số tuyệt đối trung bình trong dự báo chuỗi thời gian là trung bình theo thời gian và nó đo lường hiệu suất của một thủ tục để dự báo trung vị với giả định rằng hiệu suất là, theo một cách nào đó, đứng yên và hiển thị một số thuộc tính ergodic . Nếu (vì một số lý do) bạn cần dự báo nhiệt độ trung bình trên trái đất trong 50 năm tới và nếu mô hình của bạn hoạt động tốt trong 50 năm qua ... điều đó không có nghĩa là ...

Nói chung, (nếu tôi nhớ, nó được gọi là không có bữa trưa miễn phí) bạn không thể làm bất cứ điều gì nếu không làm người mẫu ... Ngoài ra, tôi nghĩ rằng thống kê đang cố gắng tìm câu trả lời cho câu hỏi: "có gì đáng kể hay không", đây là một câu hỏi rất quan trọng trong khoa học và không thể được trả lời thông qua một quá trình học tập. Nói với John Tukey (ông có phải là một nhà thống kê không?):

Sự kết hợp của một số dữ liệu và mong muốn có được câu trả lời không đảm bảo rằng câu trả lời hợp lý có thể được trích xuất từ ​​một khối dữ liệu nhất định

Hi vọng điêu nay co ich !


12

Rõ ràng, hai lĩnh vực rõ ràng phải đối mặt với các vấn đề tương tự nhưng khác nhau, theo những cách tương tự nhưng không giống nhau với các khái niệm tương tự nhưng không giống nhau, và làm việc trong các phòng ban, tạp chí và hội nghị khác nhau.

Khi tôi đọc Thống kê phân kỳ sức mạnh của Cressie và Read, tất cả đều chộp lấy vị trí của tôi. Công thức của họ khái quát các thống kê kiểm tra thường được sử dụng thành một số liệu thay đổi theo một số mũ, lambda. Có hai trường hợp đặc biệt, lambda = 0 và lambda = 1.

Khoa học và Thống kê máy tính phù hợp với sự liên tục (có lẽ có thể bao gồm các điểm khác). Tại một giá trị của lambda, bạn nhận được số liệu thống kê thường được trích dẫn trong vòng Thống kê và mặt khác, bạn nhận được số liệu thống kê thường được trích dẫn trong vòng tròn Comp Sci.

Số liệu thống kê

  • Lambda = 1
  • Tổng bình phương xuất hiện rất nhiều
  • Phương sai là thước đo độ biến thiên
  • Hiệp phương sai như một thước đo của hiệp hội
  • Thống kê Chi bình phương như một thước đo phù hợp với mô hình

Khoa học máy tính:

  • Lambda = 0
  • Tổng số các bản ghi xuất hiện rất nhiều
  • Entropy như một thước đo của sự thay đổi
  • Thông tin lẫn nhau như một thước đo của sự liên kết
  • Thống kê G bình phương như một thước đo phù hợp với mô hình

9

Bạn chạy một thuật toán máy tính ưa thích một lần - và bạn nhận được một bài thuyết trình / thống kê hội nghị CS (wow, thật là một sự hội tụ nhanh!). Bạn thương mại hóa nó và chạy nó 1 triệu lần - và bạn đã phá vỡ (ồ, tại sao tôi lại nhận được kết quả vô dụng và không thể đưa ra được ???) trừ khi bạn biết cách sử dụng xác suất và thống kê để khái quát các tính chất của thuật toán.


3
Tôi đã đánh giá thấp câu trả lời này. Mặc dù với một câu hỏi như thế này chắc chắn sẽ liên quan đến một số ý kiến ​​cá nhân, IMO chúng ta nên cố gắng cho một số phê bình thực chất hơn. Điều này chỉ xảy ra như một lời nói.
Andy W

@AndyW, tất nhiên, đây là một sự cường điệu của những gì tôi thấy xung quanh. Thất bại trong việc suy nghĩ về mặt thống kê cũng đúng với thế giới học thuật: khả năng nhân rộng các kết quả được công bố trong tâm lý học hoặc khoa học y tế nhiều nhất là 25% (xem, ví dụ, Simplystatistic.tumblr.com/post/21326470429/ tựa ) thay vì danh nghĩa 95%. OP muốn thống kê để nắm lấy khoa học máy tính; có lẽ khoa học máy tính nên nắm lấy một số thống kê, và tôi đã đưa ra lý do tại sao.
StasK

5
@StasK Tôi nghĩ bạn tạo ra một số điểm quan trọng, tại sao không thử làm cho chúng bớt tích cực hơn một chút?
Gala

2
Tôi rất thích câu trả lời súc tích này.
Ian Warburton

6

Có một lĩnh vực ứng dụng thống kê trong đó tập trung vào mô hình tạo dữ liệu có ý nghĩa rất lớn. Trong các thí nghiệm được thiết kế, ví dụ, nghiên cứu trên động vật, thử nghiệm lâm sàng, DOE công nghiệp, các nhà thống kê có thể nắm bắt được mô hình tạo dữ liệu là gì. ML có xu hướng không dành nhiều thời gian cho vấn đề rất quan trọng này vì ML thường tập trung vào một vấn đề rất quan trọng khác về dự đoán dựa trên dữ liệu quan sát của nhóm lớn. Điều đó không có nghĩa là ML không thể được áp dụng cho các thử nghiệm được thiết kế trên YouTube lớn, nhưng điều quan trọng là phải thừa nhận rằng các số liệu thống kê có chuyên môn đặc biệt về các vấn đề dữ liệu của Hồi nhỏ phát sinh từ các thử nghiệm bị hạn chế tài nguyên.

Vào cuối ngày, tôi nghĩ rằng tất cả chúng ta có thể đồng ý sử dụng những gì hoạt động tốt nhất để giải quyết vấn đề trong tay. Ví dụ, chúng tôi có thể có một thử nghiệm được thiết kế tạo ra dữ liệu rất rộng với mục tiêu dự đoán. Nguyên tắc thiết kế thống kê rất hữu ích ở đây và phương pháp ML có thể hữu ích để xây dựng bộ dự đoán.


4

Tôi nghĩ rằng học máy cần phải là một nhánh phụ theo thống kê, giống như, theo quan điểm của tôi, hóa học cần phải là một nhánh phụ trong vật lý.

Tôi nghĩ rằng quan điểm lấy cảm hứng từ vật lý vào hóa học là khá vững chắc (tôi đoán vậy). Tôi không nghĩ rằng có bất kỳ phản ứng hóa học nào mà tương đương không được biết về mặt vật lý. Tôi nghĩ rằng vật lý đã thực hiện một công việc tuyệt vời bằng cách giải thích mọi thứ chúng ta có thể nhìn thấy ở cấp độ hóa học. Bây giờ thách thức của các nhà vật lý dường như đang giải thích những bí ẩn nhỏ bé ở cấp độ lượng tử, trong những điều kiện khắc nghiệt không thể quan sát được.

Bây giờ trở lại học máy. Tôi nghĩ nó cũng nên là một nhánh phụ theo thống kê (chỉ là cách hóa học là một nhánh phụ của vật lý).

Nhưng dường như, bằng cách nào đó, bằng cách nào đó, tình trạng học máy hiện tại, hoặc thống kê, không đủ chín chắn để nhận ra điều này một cách hoàn hảo. Nhưng về lâu dài, tôi nghĩ người ta phải trở thành một nhánh phụ của người kia. Tôi nghĩ rằng đó là ML sẽ được thống kê.

Cá nhân tôi nghĩ rằng "học tập" và "phân tích mẫu" để ước tính / suy ra các chức năng hoặc dự đoán tất cả về cơ bản là một câu hỏi về thống kê.


3
Sinh học, tâm lý học và xã hội học cũng nên là "nhánh phụ" của vật lý?
amip

Phải .. Tâm lý chỉ là đầu vào / đầu ra liên quan đến các máy sinh học rất phức tạp. Một ngày nào đó chúng ta có thể cần gửi xe của mình đến một nhà tâm lý học để chẩn đoán lỗi của nó (chính nhà tâm lý học có thể là một máy tính).
thượng cổ

1
Dường như với tôi, Toán học là cha đẻ của tất cả. Từ đó chúng tôi đã áp dụng toán học, từ đó vật lý và những thứ khác đến. Thống kê là một trong số đó. Tôi nghĩ ML không cần phải là một chi nhánh riêng mà thay vào đó được pha trộn vào các số liệu thống kê. Nhưng nếu ML trở thành một nhánh của riêng nó, tôi thích nó là một nhánh con / nhánh con của thống kê.
thượng cổ

4

Từ khóa học Coursera "Khoa học dữ liệu trong cuộc sống thực" của Brian Caffo

Học máy

  • Nhấn mạnh dự đoán
  • Đánh giá kết quả thông qua hiệu suất dự đoán
  • Quan tâm đến việc quá mức nhưng không phức tạp về mô hình
  • Nhấn mạnh vào hiệu suất
  • Tính tổng quát có được thông qua hiệu suất trên các bộ dữ liệu mới
  • Thông thường, không có mô hình siêu phổ biến được chỉ định
  • Quan tâm đến hiệu suất và sự mạnh mẽ

Phân tích thống kê truyền thống

  • Nhấn mạnh suy luận siêu phổ biến
  • Tập trung vào các giả thuyết a-prori
  • Các mô hình đơn giản được ưa thích hơn các mô hình phức tạp (Parsimony), ngay cả khi các mô hình phức tạp hơn hoạt động tốt hơn một chút
  • Nhấn mạnh vào khả năng diễn giải tham số
  • Mô hình thống kê hoặc giả định lấy mẫu kết nối dữ liệu với dân số quan tâm
  • Quan tâm đến các giả định và sự mạnh mẽ

-5

Là nhà khoa học máy tính, tôi luôn bị thu hút khi tìm đến các phương pháp thống kê. Đối với tôi nhiều lần có vẻ như các mô hình thống kê được sử dụng trong phân tích thống kê là quá phức tạp đối với dữ liệu trong nhiều tình huống!

Ví dụ, có một liên kết mạnh mẽ giữa nén dữ liệu và thống kê. Về cơ bản người ta cần một mô hình thống kê tốt có khả năng dự đoán dữ liệu tốt và điều này mang lại khả năng nén dữ liệu rất tốt. Trong khoa học máy tính khi nén dữ liệu luôn có độ phức tạp của mô hình thống kê và độ chính xác của dự đoán là rất quan trọng. Không ai muốn có được một tệp dữ liệu (chứa dữ liệu âm thanh hoặc dữ liệu hình ảnh hoặc dữ liệu video) trở nên lớn hơn sau khi nén!

Tôi thấy rằng có nhiều thứ năng động hơn trong khoa học máy tính liên quan đến thống kê, ví dụ như Độ dài mô tả tối thiểuKhả năng tối đa được chuẩn hóa .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.