Các mô hình dự đoán: số liệu thống kê không thể đánh bại máy học? [đóng cửa]


14

Tôi hiện đang theo một chương trình tổng thể tập trung vào thống kê / kinh tế lượng. Trong thạc sĩ của tôi, tất cả các sinh viên phải làm 3 tháng nghiên cứu. Tuần trước, tất cả các nhóm phải trình bày nghiên cứu của họ cho phần còn lại của các sinh viên thạc sĩ.

Hầu hết mọi nhóm đều thực hiện một số mô hình thống kê và một số mô hình học máy cho các chủ đề nghiên cứu của họ và mỗi lần dự đoán ngoài mẫu đều xuất hiện để nói về các mô hình học máy đơn giản đánh bại các mô hình thống kê rất tinh vi mà mọi công việc rất khó khăn trong 3 năm qua tháng. Cho dù các mô hình thống kê của mọi người có tốt đến đâu, một khu rừng ngẫu nhiên đơn giản cũng có các lỗi ngoài mẫu thấp hơn rất nhiều.

Tôi đã tự hỏi nếu đây là một quan sát thường được chấp nhận? Rằng nếu nói đến dự báo ngoài mẫu, đơn giản là không có cách nào để đánh bại một khu rừng ngẫu nhiên đơn giản hoặc mô hình tăng cường độ dốc cực lớn? Hai phương pháp này rất đơn giản để thực hiện bằng cách sử dụng các gói R, trong khi tất cả các mô hình thống kê mà mọi người đưa ra đòi hỏi khá nhiều kỹ năng, kiến ​​thức và nỗ lực để ước tính.

Suy nghĩ của bạn về điều này là gì? Là lợi ích duy nhất của các mô hình thống kê / kinh tế lượng mà bạn đạt được giải thích? Hay là các mô hình của chúng ta không đủ tốt để chúng thất bại trong việc vượt trội đáng kể so với các dự đoán rừng ngẫu nhiên đơn giản? Có bất kỳ giấy tờ giải quyết vấn đề này?


5
Điều này cũng có thể được đóng lại là "quá rộng". (Hy vọng không phải là "dựa trên quan điểm"!) Tôi nghĩ: Tôi không nghĩ có một câu trả lời chung. Kinh nghiệm của tôi là các mô hình thống kê sẽ tốt hơn nếu có ít quan sát hơn, bởi vì sau đó áp đặt một số loại cấu trúc sẽ cải thiện theo cách tiếp cận phần lớn không có mô hình. Ngược lại, RF sẽ tốt hơn nếu có nhiều quan sát. ...
S. Kolassa - Tái lập Monica

4
... Câu hỏi còn lại là chính xác những gì đã được đánh giá, và làm thế nào. Nếu dự đoán điểm được đánh giá phù hợp (các biện pháp chính xác có thể gây hiểu nhầm đáng ngạc nhiên), thì đó là một vấn đề khác so với dự đoán mật độ. Các mô hình thống kê có thể tốt hơn ở các dự báo mật độ, một lần nữa bởi vì bạn cần nhiều dữ liệu hơn.
S. Kolassa - Tái lập Monica

1
@StephanKolassa: Tôi nghĩ rằng một câu trả lời hay (hoặc một vài câu trả lời) cho câu hỏi này sẽ bao gồm lý do tại sao không có câu trả lời chung - về mặt lý thuyết & thực tế -, cách đánh giá hiệu suất dự đoán, cách phân biệt giữa thống kê và máy phương pháp học tập, mục tiêu nào có thể vượt ra ngoài dự đoán và một vài điều tôi chưa từng nghĩ tới. Vì vậy, một phạm vi rộng; nhưng theo tôi thì không quá rộng và cố gắng hạn chế nó có thể chỉ cản trở việc tạo ra những điểm chung hữu ích.
Scortchi - Phục hồi Monica

5
Những gì chúng tôi không muốn là một bộ sưu tập các giai thoại - Tôi khuyên người dùng nên gắn cờ cho các câu trả lời xóa ít hơn là ví dụ: "Tôi luôn thấy rằng các khu rừng ngẫu nhiên đánh bại hồi quy logistic", tuy nhiên rất hay. Chúng tôi có thể hơi chậm chạp về các bình luận, nhưng các chủ đề dài sẽ được chuyển sang trò chuyện.
Scortchi - Phục hồi Monica

14
Tôi không nghĩ rằng có một sự khác biệt có ý nghĩa giữa thống kê và học máy. Ví dụ, Leo Breiman, một nhà nghiên cứu rừng ngẫu nhiên nổi bật, là giáo sư thống kê tại UC Berkeley. Trong bối cảnh giai thoại của bạn, RF tình cờ tốt hơn các mô hình khác mà mọi người phù hợp, nhưng tôi thấy không có lý do gì nói chung điều này phải đúng (xem thêm định lý Không ăn trưa miễn phí). Có lẽ điều này nói nhiều về tập dữ liệu (hoặc thậm chí là các sinh viên) hơn là các phương thức.
Sycorax nói phục hồi Monica

Câu trả lời:


20

Mô hình thống kê khác với học máy. Ví dụ, hồi quy tuyến tính vừa là mô hình thống kê vừa là mô hình học máy. Vì vậy, nếu bạn so sánh hồi quy tuyến tính với một khu rừng ngẫu nhiên, bạn chỉ đang so sánh một mô hình học máy đơn giản hơn với một mô hình phức tạp hơn. Bạn không so sánh mô hình thống kê với mô hình học máy.

Mô hình thống kê cung cấp nhiều hơn giải thích; nó thực sự đưa ra một mô hình của một số tham số dân số. Nó phụ thuộc vào một khuôn khổ lớn về toán học và lý thuyết, cho phép các công thức cho những thứ như phương sai của các hệ số, phương sai của dự đoán và kiểm tra giả thuyết. Hiệu suất tiềm năng của mô hình thống kê lớn hơn nhiều so với học máy, bởi vì bạn có thể đưa ra những tuyên bố mạnh mẽ về các tham số dân số thay vì chỉ đo lỗi khi nắm giữ, nhưng việc tiếp cận vấn đề với mô hình thống kê khó khăn hơn đáng kể.


1
Theo như tôi hiểu thì bạn nói rằng với các số liệu thống kê, bạn sẽ nhận được nhiều lợi ích hơn như phương sai của các hệ số, phương sai của dự đoán và kiểm tra giả thuyết. Nhưng khi nói đến mô hình dự đoán, tức là đưa ra dự báo điểm của một số biến phản ứng, bạn có nghĩ rằng các mô hình thống kê có thể đánh bại các mô hình học máy không?
dubvice

5
Đây là những câu trả lời (1). Theo quan điểm của tôi (và có lẽ cả những người khác nữa), có một số loại phân tích thống kê: mô tả, suy luận, dự đoán, khám phá, v.v. Học máy chủ yếu sẽ nằm trong phân tích dự đoán và hầu hết không cho phép bạn suy luận các xác nhận về mọi thứ, vì vậy tất cả đều tập trung vào "sử dụng công cụ phù hợp cho công việc" (đưa ra ví dụ hồi quy tuyến tính, nó có thể được sử dụng trong tất cả các lĩnh vực, ví dụ: ước tính các kỳ vọng có điều kiện, là một nhiệm vụ mô tả).
Firebug

2
Điều này nghe có vẻ như khẳng định rằng mô hình thống kê tiêu chuẩn có thể tốt hơn cho suy luận (trái ngược với dự đoán) so với học máy, có thể giúp mô hình hóa khả năng diễn giải. Mặc dù chắc chắn là đúng nếu chúng ta so sánh hồi quy bình phương nhỏ nhất bình thường với mạng nơ ron sâu, do câu hỏi ban đầu đặc biệt tham chiếu rừng ngẫu nhiên (thuật toán ML tốt để suy luận), một khẳng định như vậy hơi mờ.
Greenstick

2
Dưới đây là một số bằng chứng chắc chắn từ miền thời gian trong đó các mô hình thống kê luôn đánh bại các phương pháp tiếp cận máy học: Makridakis "Phương pháp dự báo thống kê và học máy: Mối quan tâm và cách tiến về phía trước" .
Richard Hardy

1
Đó chỉ là câu trả lời hoàn hảo. Dưới đây là một ví dụ: giả sử bạn có một biện pháp dự đoán sự sống sót của bệnh nhân mắc một căn bệnh nhất định. Có các tiêu chuẩn quốc tế về cách xác định xem biện pháp này có giá trị lâm sàng hay không (về cơ bản nếu hệ số này khác 0 với giá trị dưới 5% trong mô hình đơn biến hoặc đa biến). Mặc dù tôi hoàn toàn chắc chắn rằng 99% thời gian một khu rừng ngẫu nhiên có đủ dữ liệu sẽ là một mô hình dự đoán tốt hơn.
Rémy Nicolle

5

Thật sai lầm khi nêu câu hỏi theo cách bạn nói. Ví dụ, một khối đáng kể của học máy có thể được gọi là học thống kê . Vì vậy, so sánh của bạn giống như táo so với bánh trái cây.

Tuy nhiên, tôi sẽ đi theo cách bạn đóng khung nó và tuyên bố như sau: khi nói đến dự đoán, không có gì có thể được thực hiện mà không có một số hình thức thống kê vì dự đoán vốn dĩ có sự ngẫu nhiên (không chắc chắn) trong đó. Hãy xem xét điều này: mặc dù thành công lớn của học máy trong một số ứng dụng, nó có hoàn toàn không có gì để thể hiện trong dự đoán giá tài sản. Không có gì đâu. Tại sao? Bởi vì trong hầu hết các thị trường chất lỏng phát triển, giá tài sản là ngẫu nhiên.

Bạn có thể chạy máy học cả ngày để quan sát và tìm hiểu về sự phân rã phóng xạ của các nguyên tử, và nó sẽ không bao giờ có thể dự đoán thời gian phân rã của nguyên tử tiếp theo, đơn giản chỉ vì nó là ngẫu nhiên.

Là một nhà thống kê đầy tham vọng, sẽ thật ngu ngốc khi bạn không thành thạo học máy, bởi vì đó là một trong những ứng dụng thống kê nóng nhất, tất nhiên, trừ khi, bạn biết chắc chắn rằng bạn sẽ đến học viện. Bất cứ ai có khả năng đi làm trong ngành đều cần thành thạo ML. Không có sự thù địch hay cạnh tranh giữa thống kê và đám đông ML. Thực tế, nếu bạn thích lập trình, bạn sẽ cảm thấy như ở nhà trong lĩnh vực ML


2

Nói chung là không, nhưng có khả năng là có sai chính tả. Vấn đề bạn đang tìm kiếm được gọi là sự chấp nhận. Một quyết định được chấp nhận nếu không có cách nào ít rủi ro để tính toán nó.

Tất cả các giải pháp Bayes đều được chấp nhận và các giải pháp không thuộc Bayes đều được chấp nhận ở mức độ phù hợp với giải pháp Bayes trong mọi mẫu hoặc ở giới hạn. Một giải pháp Thường xuyên hoặc Bayes được chấp nhận sẽ luôn đánh bại một giải pháp ML trừ khi nó cũng được chấp nhận. Với những gì đã nói, có một số nhận xét thực tế làm cho tuyên bố này đúng nhưng bỏ trống.

Đầu tiên, ưu tiên cho tùy chọn Bayes phải là ưu tiên thực sự của bạn và không phải là một bản phân phối trước được sử dụng để làm cho một biên tập viên tại một tạp chí hài lòng. Thứ hai, nhiều giải pháp Thường xuyên là không thể chấp nhận được và nên sử dụng công cụ ước tính co ngót thay cho giải pháp tiêu chuẩn. Rất nhiều người không biết về bổ đề của Stein và những hệ lụy của nó đối với lỗi mẫu. Cuối cùng, ML có thể mạnh hơn một chút, trong nhiều trường hợp, xảy ra lỗi chính tả.

Khi bạn chuyển đến các cây quyết định và anh em họ của họ trong rừng, bạn không sử dụng một phương pháp tương tự trừ khi bạn cũng đang sử dụng một cái gì đó tương tự như lưới Bayes. Một giải pháp biểu đồ chứa một lượng đáng kể thông tin ngầm trong đó, đặc biệt là biểu đồ có hướng. Bất cứ khi nào bạn thêm thông tin vào một quy trình xác suất hoặc thống kê, bạn sẽ giảm sự thay đổi của kết quả và thay đổi những gì sẽ được coi là chấp nhận được.

Nếu bạn nhìn vào học máy từ một thành phần của phối cảnh các hàm, nó chỉ trở thành một giải pháp thống kê nhưng sử dụng các phép tính gần đúng để làm cho giải pháp có thể chuyển đổi được. Đối với các giải pháp Bayes, MCMC tiết kiệm lượng thời gian không thể tin được cũng như việc giảm độ dốc cho nhiều vấn đề ML. Nếu bạn phải xây dựng một hậu thế chính xác để tích hợp hoặc sử dụng vũ lực cho nhiều vấn đề ML, hệ mặt trời sẽ chết vì nhiệt trước khi bạn có câu trả lời.

Tôi đoán là bạn có một mô hình sai chính tả cho những người sử dụng số liệu thống kê hoặc số liệu thống kê không phù hợp. Tôi đã dạy một bài giảng nơi tôi chứng minh rằng trẻ sơ sinh sẽ bay ra khỏi cửa sổ nếu không được quấn tã một cách thích hợp và ở đó phương pháp Bayesian vượt trội hoàn toàn so với phương pháp Thường xuyên trên một lựa chọn đa phương thức mà phương pháp Thường xuyên đã phá vỡ, theo dự đoán, trong khi phương pháp Bayes đã nhân đôi số tiền của người tham gia . Bây giờ tôi đã lạm dụng số liệu thống kê trước đây và lợi dụng tính không phù hợp của công cụ ước tính Thường xuyên ở phần sau, nhưng một người sử dụng thống kê ngây thơ có thể dễ dàng làm những gì tôi đã làm. Tôi chỉ làm cho chúng cực đoan để làm cho các ví dụ rõ ràng, nhưng tôi đã sử dụng dữ liệu hoàn toàn thực.

Các khu rừng ngẫu nhiên là các công cụ ước tính nhất quán và chúng dường như giống với các quy trình Bayes nhất định. Do liên kết đến các công cụ ước tính kernel, chúng có thể khá gần nhau. Nếu bạn thấy sự khác biệt lớn về hiệu suất giữa các loại giải pháp, thì có một vấn đề tiềm ẩn nào đó mà bạn đang hiểu lầm và nếu vấn đề này có tầm quan trọng, thì bạn thực sự cần tìm nguồn gốc của sự khác biệt vì đó cũng có thể là trường hợp tất cả các mô hình là sai chính tả.


1

Rất nhiều máy học có thể không khác biệt so với hack, ít nhất là cho một số mục đích.

Nếu bạn kiểm tra mọi mô hình có thể để tìm ra mô hình có độ chính xác dự đoán cao nhất (dự đoán lịch sử hoặc dự đoán ngoài nhóm) trên cơ sở dữ liệu lịch sử, điều này không nhất thiết có nghĩa là kết quả sẽ giúp hiểu được những gì đang diễn ra. Tuy nhiên, có thể nó sẽ tìm thấy các mối quan hệ có thể có thể cung cấp một giả thuyết.

Tạo động lực cho các giả thuyết cụ thể và sau đó kiểm tra chúng bằng các phương pháp thống kê chắc chắn cũng có thể bị hack tương tự (hoặc tương tự).

Nhưng vấn đề là nếu tiêu chí là "độ chính xác dự đoán cao nhất dựa trên dữ liệu lịch sử", thì có nguy cơ quá tự tin trong một số mô hình mà người ta không hiểu, mà không thực sự có ý tưởng nào về những gì đã dẫn đến những kết quả lịch sử đó và / hoặc liệu họ có thể là thông tin cho tương lai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.