Nói chung, làm suy luận khó hơn dự đoán?


13

Câu hỏi của tôi đến từ thực tế sau đây. Tôi đã được đọc bài viết, blog, bài giảng cũng như sách về học máy. Ấn tượng của tôi là các học viên máy học dường như thờ ơ với nhiều điều mà các nhà thống kê / kinh tế lượng quan tâm. Cụ thể, các học viên máy học nhấn mạnh độ chính xác dự đoán hơn suy luận.

Một ví dụ như vậy xảy ra khi tôi tham gia Machine Learning của Andrew Ng trên Coursera. Khi ông thảo luận về Mô hình tuyến tính đơn giản, ông không đề cập gì đến thuộc tính BLUE của các công cụ ước tính, hoặc mức độ không đồng nhất sẽ "vô hiệu hóa" khoảng tin cậy. Thay vào đó, ông tập trung vào việc thực hiện giảm độ dốc và khái niệm xác thực chéo / đường cong ROC. Những chủ đề này không được đề cập trong các lớp học kinh tế lượng / thống kê của tôi.

Một ví dụ khác xảy ra khi tôi tham gia các cuộc thi Kaggle. Tôi đã đọc mã và suy nghĩ của người khác. Một phần lớn những người tham gia chỉ cần ném mọi thứ vào SVM / rừng ngẫu nhiên / XGBoost.

Một ví dụ khác là về lựa chọn mô hình từng bước. Kỹ thuật này được sử dụng rộng rãi, ít nhất là trực tuyến và trên Kaggle. Nhiều sách giáo khoa máy học cổ điển cũng bao gồm nó, chẳng hạn như Giới thiệu về Học thống kê. Tuy nhiên, theo câu trả lời này (khá thuyết phục), việc lựa chọn mô hình từng bước phải đối mặt với rất nhiều vấn đề, đặc biệt là khi nói đến "khám phá mô hình thực sự". Dường như chỉ có hai khả năng: hoặc là những người thực hành máy học không biết vấn đề theo từng bước, hoặc họ làm nhưng họ không quan tâm.

Vì vậy, đây là những câu hỏi của tôi:

  1. Có đúng là (nói chung) các học viên học máy tập trung vào dự đoán và do đó không quan tâm đến rất nhiều điều mà các nhà thống kê / nhà kinh tế quan tâm?
  2. Nếu nó là sự thật, thì lý do đằng sau nó là gì? Có phải bởi vì suy luận là khó khăn hơn trong một số ý nghĩa?
  3. Có hàng tấn tài liệu về học máy (hoặc dự đoán) trực tuyến. Tuy nhiên, nếu tôi quan tâm đến việc học về suy luận, một số tài nguyên trực tuyến mà tôi có thể tham khảo là gì?

Cập nhật : Tôi mới nhận ra rằng từ "suy luận" có thể có nghĩa là rất nhiều thứ. Ý tôi là "suy luận" đề cập đến những câu hỏi như

  1. Đã làm nguyên nhân hoặc gây ra ? Hay nói chung hơn, mối quan hệ nhân quả giữa gì?XYYXX1,X2,,Xn

  2. Vì "tất cả các mô hình đều sai", làm thế nào "sai" là mô hình của chúng tôi từ mô hình thực sự?

  3. Đưa ra thông tin của một mẫu, chúng ta có thể nói gì về dân số và chúng ta có thể nói điều đó như thế nào?

Do kiến ​​thức thống kê rất hạn chế của tôi, tôi thậm chí không chắc liệu những câu hỏi đó có rơi vào địa hạt thống kê hay không. Nhưng đó là những loại câu hỏi mà những người thực hành máy học dường như không quan tâm. Có lẽ các nhà thống kê cũng không quan tâm? Tôi không biết.


2
Brian D Ripley được trích dẫn khi sử dụngR! 2004 với "Để diễn giải một cách khiêu khích, học máy là số liệu thống kê trừ đi mọi kiểm tra mô hình và giả định." Cụm từ đã trở thành một phần của fortunesgói trên CRAN. Điều này chỉ để nói rằng, bạn không đơn độc với Ấn tượng, rằng sự chặt chẽ toán học không phải luôn luôn là mối quan tâm chính trong học máy.
Bernhard

Leo Breiman đã giải quyết chính xác câu hỏi này trong bài viết "Mô hình thống kê: hai nền văn hóa" năm 2001 , đây là một bài đọc tuyệt vời.
skd

Câu trả lời:


6

Đầu tiên, tôi sẽ có quan điểm khác nhau cho máy học. Những gì bạn đã đề cập, bài giảng Coursera của Andrew Ng và cuộc thi Kaggle không phải là 100% học máy mà là một số ngành nhắm vào các ứng dụng thực tế. Nghiên cứu máy học thực sự phải là công việc phát minh ra mô hình tăng tốc rừng / SVM / gradient ngẫu nhiên, khá gần với thống kê / toán học.

Tôi đồng ý các học viên học máy tập trung nhiều hơn vào độ chính xác so với các nhà thống kê / nhà kinh tế. Có những lý do mà những người quan tâm đến việc có được độ chính xác tốt hơn, thay vì "suy luận về phân phối thực sự". Lý do chính là cách chúng tôi thu thập dữ liệu và sử dụng dữ liệu đã được thay đổi trong nhiều thập kỷ qua.

Thống kê đã được thiết lập trong hàng trăm năm, nhưng trong quá khứ, không ai nghĩ rằng bạn có hàng tỷ dữ liệu để đào tạo và hàng tỷ dữ liệu khác để thử nghiệm. (Ví dụ: số lượng hình ảnh trên Internet). Do đó, với lượng dữ liệu tương đối nhỏ, các giả định từ kiến ​​thức tên miền là cần thiết để thực hiện công việc. Hoặc bạn có thể nghĩ về việc "bình thường hóa" mô hình. Khi các giả định đã được đưa ra, sau đó có các vấn đề suy luận về phân phối "thật".

Tuy nhiên, nếu chúng ta suy nghĩ cẩn thận về nó, chúng ta có thể đảm bảo những giả định này là đúng và suy luận có hợp lệ không? Tôi muốn trích dẫn George Box:

Tất cả các mô hình đều sai nhưng một số hữu ích

Bây giờ, hãy quay lại suy nghĩ về cách tiếp cận thực tế để nhấn mạnh vào độ chính xác hơn là giả định / suy luận. Đó là một cách tiếp cận tốt, khi chúng ta có lượng dữ liệu khổng lồ.

Giả sử chúng ta đang xây dựng một mô hình cho tất cả các hình ảnh chứa khuôn mặt người ở mức pixel. Đầu tiên, rất khó để đề xuất các giả định về mức pixel cho hàng tỷ hình ảnh: không ai có kiến ​​thức về miền đó. Thứ hai, chúng ta có thể nghĩ về tất cả các cách có thể để phù hợp với dữ liệu và vì dữ liệu rất lớn, tất cả các mô hình chúng ta có thể không đủ (gần như không thể phù hợp quá mức).

Đây cũng là lý do tại sao "mạng học sâu / mạng lưới thần kinh" trở nên phổ biến trở lại. Trong điều kiện dữ liệu lớn, chúng ta có thể chọn một mô hình thực sự phức tạp và phù hợp với nó nhất có thể, và chúng ta vẫn có thể OK, vì tài nguyên tính toán của chúng ta bị hạn chế, so với tất cả dữ liệu thực trong từ.

Cuối cùng, nếu mô hình chúng tôi xây dựng là tốt trong tập dữ liệu thử nghiệm khổng lồ, thì chúng là tốt và có giá trị, mặc dù chúng tôi có thể không biết giả định gạch chân hoặc phân phối thực sự.


Tôi muốn chỉ ra từ "suy luận" có ý nghĩa khác nhau trong cộng đồng khác nhau.

  • Trong cộng đồng thống kê, nó thường có nghĩa là nhận thông tin về phân phối thực theo cách tham số hoặc không tham số.
  • Trong cộng đồng học máy, nó thường có nghĩa là tính toán các xác suất nhất định từ một phân phối nhất định. Xem Hướng dẫn mô hình đồ họa của Murphy để biết ví dụ.
  • Trong học máy, mọi người sử dụng từ "học" để thể hiện "lấy các tham số của phân phối thực", tương tự như "suy luận" trong cộng đồng thống kê.

Vì vậy, bạn có thể thấy, về cơ bản, có rất nhiều người trong học máy cũng đang thực hiện "suy luận".

Ngoài ra, bạn cũng có thể nghĩ về những người trong giới hàn lâm thích "tái thương hiệu công việc của họ và bán lại": đưa ra các thuật ngữ mới có thể hữu ích để thể hiện tính mới của nghiên cứu. Trên thực tế, có rất nhiều sự chồng chéo giữa trí tuệ nhân tạo, khai thác dữ liệu và học máy. Và chúng liên quan chặt chẽ đến thống kê và thiết kế thuật toán. Một lần nữa, không có ranh giới rõ ràng để làm "suy luận" hay không.


3
Tôi có thể thấy bạn đến từ đâu. Một thay thế có thể là: dự đoán = tập trung vào các biến quan sát, suy luận = tập trung vào các biến ẩn. Vì vậy, theo một nghĩa nào đó, suy luận đang cố gắng tạo ra các loại phép đo mới, trong khi dự đoán là về việc thực hiện các phép đo mới về nguyên tắc có thể được quan sát? (Tất nhiên, điều này tương thích với câu trả lời của bạn)
GeoMatt22
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.