Ý tưởng 'cơ bản' của học máy để ước tính các tham số là gì?


19

Ý tưởng 'cơ bản' về thống kê để ước tính các tham số là khả năng tối đa . Tôi đang tự hỏi ý tưởng tương ứng trong học máy là gì.

Qn 1. Sẽ công bằng khi nói rằng ý tưởng 'cơ bản' trong học máy để ước tính các tham số là: 'Hàm mất'

[Lưu ý: Tôi ấn tượng rằng các thuật toán học máy thường tối ưu hóa hàm mất và do đó là câu hỏi trên.]

Qn 2: Có tài liệu nào cố gắng thu hẹp khoảng cách giữa thống kê và học máy không?

[Lưu ý: Có lẽ, bằng cách liên quan đến các chức năng mất đến khả năng tối đa. (ví dụ: OLS tương đương với khả năng tối đa cho các lỗi được phân phối thông thường, v.v.)]


3
Tôi không thấy sự quan tâm của những câu hỏi này về việc cố gắng thu hẹp khoảng cách giả tưởng. mục tiêu của tất cả đó là gì? Ngoài ra, có rất nhiều ý tưởng khác là cơ bản trong thống kê ... và chức năng mất ít nhất 100 năm tuổi. bạn có thể giảm số liệu thống kê như vậy? có thể câu hỏi của bạn là về khái niệm cơ bản trong datamining / statistic / machine learning tuy nhiên bạn gọi nó ... Sau đó, câu hỏi đã tồn tại và quá rộng thống kê.stackexchange.com/questions/372/ .
cướp girard

Chà, tôi không biết nhiều về học máy hay các mối liên hệ của nó với thống kê. Trong mọi trường hợp, hãy xem câu hỏi này: stats.stackexchange.com/questions/6/ , điều đó cho thấy rằng ít nhất các cách tiếp cận để trả lời các câu hỏi tương tự là khác nhau. Có phải là 'không tự nhiên' để tự hỏi nếu có một số liên kết giữa chúng? Vâng, tôi đồng ý rằng có rất nhiều ý tưởng trong thống kê. Đó là lý do tại sao tôi có cơ bản trong dấu ngoặc kép và giới hạn phạm vi để ước tính các tham số quan tâm.

@ Liên kết giữa những gì? lưu ý rằng tôi thực sự muốn tìm kiếm liên kết giữa các đối tượng được xác định rõ, tôi thấy nó thực sự tự nhiên.
cướp girard

6
Như, có thể nói, một người học máy, tôi ở đây để nói với bạn rằng chúng ta tối đa hóa khả năng. Tất cả thời gian. Vô số tài liệu học máy bắt đầu bằng "hey nhìn vào khả năng của tôi, xem nó như thế nào, xem tôi tối đa hóa". Tôi đề nghị rằng thật nguy hiểm khi yêu cầu một nền tảng cơ bản của một trong hai môn học về kỹ thuật suy luận. Đó là nhiều hơn về các hội nghị mà bạn đi đến!
Mike Dewar

6
Tôi không nghĩ Bayes sẽ đồng ý với khả năng tối đa là ý tưởng cơ bản của thống kê.
Marc Claesen

Câu trả lời:


17

Nếu số liệu thống kê là tất cả về tối đa hóa khả năng, thì học máy là tất cả về giảm thiểu tổn thất. Vì bạn không biết mất mát mà bạn sẽ phải chịu cho dữ liệu trong tương lai, nên bạn giảm thiểu xấp xỉ, tức là mất theo kinh nghiệm.

Ví dụ: nếu bạn có một nhiệm vụ dự đoán và được đánh giá bằng số lượng phân loại sai, bạn có thể huấn luyện các tham số để mô hình kết quả tạo ra số lượng phân loại sai nhỏ nhất trên dữ liệu đào tạo. "Số lượng phân loại sai" (nghĩa là mất 0-1) là một hàm mất cứng để làm việc vì nó không khác biệt, vì vậy bạn ước tính nó với một "thay thế" trơn tru. Chẳng hạn, mất nhật ký là giới hạn trên của tổn thất 0-1, vì vậy thay vào đó bạn có thể giảm thiểu điều đó và điều này sẽ giống như tối đa hóa khả năng có điều kiện của dữ liệu. Với mô hình tham số, phương pháp này trở nên tương đương với hồi quy logistic.

Trong một nhiệm vụ mô hình hóa có cấu trúc và xấp xỉ tổn thất log 0-1, bạn nhận được một cái gì đó khác với khả năng có điều kiện tối đa, thay vào đó bạn sẽ tối đa hóa sản phẩm của khả năng cận biên (có điều kiện).

Để có được xấp xỉ tổn thất tốt hơn, mọi người nhận thấy rằng mô hình đào tạo để giảm thiểu tổn thất và sử dụng tổn thất đó làm ước tính tổn thất trong tương lai là một ước tính quá lạc quan. Vì vậy, để giảm thiểu chính xác (tổn thất thực sự trong tương lai), họ thêm một thuật ngữ điều chỉnh sai lệch vào tổn thất theo kinh nghiệm và giảm thiểu điều đó, điều này được gọi là giảm thiểu rủi ro có cấu trúc.

Trong thực tế, việc tìm ra thuật ngữ điều chỉnh sai lệch đúng có thể quá khó, vì vậy bạn thêm một biểu thức "theo tinh thần" của thuật ngữ điều chỉnh sai lệch, ví dụ, tổng bình phương của các tham số. Cuối cùng, hầu hết tất cả các phương pháp phân loại có giám sát học máy tham số đều kết thúc đào tạo mô hình để giảm thiểu những điều sau đây

iL(m(xi,w),yi)+P(w)

nơi là mô hình của bạn parametrized bởi vector , được thực hiện trên tất cả các datapoints , là một số xấp xỉ tính toán tốt đẹp của sự mất mát thực sự của bạn và là một số thiên vị-chỉnh / quy tắc kỳ hạn w i { x i , y i } L P ( w )mwi{xi,yi}LP(w)

Chẳng hạn, nếu , , một cách tiếp cận thông thường sẽ là để , , và chọn bằng xác nhận chéo y { - 1 , 1 } m ( x ) = dấu ( w x ) L ( m ( x ) , y ) = - log ( y × ( x w ) ) P ( w ) = q × ( w w )x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw))P(w)=q×(ww)q


3
Tôi rất muốn thấy sự mất mát này giảm thiểu trong việc phân cụm, kNN hoặc dương xỉ ngẫu nhiên ...

Chà, để mô tả chức năng mất của k-nghĩa là hàng xóm gần nhất, hãy xem phần phụ có liên quan (2.5) của bài viết này: hpl.hp.com/conferences/icml2003/ con / 21 / 21df
John L. Taylor

@ John Tuy nhiên, đây là mục đích pha trộn với lý do. Ở một mức độ lớn, bạn có thể giải thích từng thuật toán theo cách tối thiểu hóa một cái gì đó và gọi đây là "mất mát". kNN không được phát minh theo cách như vậy: Các bạn, tôi đã nghĩ về sự mất mát như thế này, hãy tối ưu hóa nó và xem điều gì sẽ xảy ra!; thay vì các bạn, hãy nói rằng quyết định ít liên tục hơn trong không gian tính năng, sau đó nếu chúng ta có một biện pháp tương tự tốt ... và cứ thế.

2
"Nếu số liệu thống kê là tất cả về tối đa hóa khả năng, thì học máy là tất cả về giảm thiểu tổn thất" Tôi không đồng ý với tiền đề của bạn - mạnh mẽ và toàn bộ. Có thể đó là sự thật của số liệu thống kê năm 1920, nhưng chắc chắn không phải là ngày hôm nay.
JMS

19

Tôi sẽ đưa ra một câu trả lời từng mục. Có thể cung cấp nhiều trích dẫn theo yêu cầu, mặc dù điều này không thực sự gây tranh cãi.

  • Thống kê không phải là tất cả về tối đa hóa (log) -likabilities. Đó là sự vô cảm đối với những người Bayes nguyên tắc, những người chỉ cập nhật hậu thế của họ hoặc truyền bá niềm tin của họ thông qua một mô hình thích hợp.
  • Rất nhiều số liệu thống kê về giảm thiểu tổn thất. Và rất nhiều Machine Learning. Giảm thiểu tổn thất theo kinh nghiệm có ý nghĩa khác nhau trong ML. Để có cái nhìn rõ ràng, tường thuật, hãy xem "Bản chất của học thống kê" của LinkedInnik
  • Machine Learning không phải là tất cả về giảm thiểu tổn thất. Thứ nhất, vì có rất nhiều người Bayes trong ML; thứ hai, bởi vì một số ứng dụng trong ML phải thực hiện với việc học tạm thời và DP gần đúng. Chắc chắn, có một chức năng khách quan, nhưng nó có một ý nghĩa rất khác so với học tập "thống kê".

Tôi không nghĩ có một khoảng cách giữa các lĩnh vực, chỉ là nhiều cách tiếp cận khác nhau, tất cả đều chồng chéo ở một mức độ nào đó. Tôi không cảm thấy cần phải biến chúng thành các môn học có hệ thống với sự khác biệt và điểm tương đồng được xác định rõ ràng, và với tốc độ mà chúng phát triển, tôi nghĩ dù sao đó cũng là một doanh nghiệp cam chịu.


8

Tôi không thể đăng bình luận (vị trí thích hợp cho bình luận này) vì tôi không có đủ danh tiếng, nhưng câu trả lời được chấp nhận là câu trả lời tốt nhất bởi chủ sở hữu câu hỏi bỏ lỡ quan điểm.

"Nếu số liệu thống kê là tất cả về tối đa hóa khả năng, thì học máy là tất cả về giảm thiểu tổn thất."

Khả năng là một chức năng mất. Tối đa hóa khả năng cũng giống như giảm thiểu chức năng mất: độ lệch, chỉ bằng -2 lần chức năng khả năng đăng nhập. Tương tự như vậy, tìm một giải pháp bình phương tối thiểu là về việc giảm thiểu hàm mất mát mô tả tổng số bình phương còn lại.

Cả ML và thống kê đều sử dụng thuật toán để tối ưu hóa sự phù hợp của một số chức năng (theo nghĩa rộng nhất) với dữ liệu. Tối ưu hóa nhất thiết liên quan đến việc giảm thiểu một số chức năng mất.


1
Điểm tốt, vẫn là sự khác biệt chính là ở một nơi khác; đầu tiên, số liệu thống kê là về việc khớp một mô hình với dữ liệu mà người ta có, ML là về việc khớp một mô hình với dữ liệu mà người ta sẽ có; thứ hai, thống kê ASSUME rằng một quá trình mà một người quan sát được điều khiển hoàn toàn bởi một mô hình "ẩn" tầm thường mà họ muốn khai quật, trong khi ML TRIES để tạo ra một số mô hình độc lập đủ phức tạp để hoạt động như thực tế.

@mbq. Đó là một bức tranh biếm họa khá khắc nghiệt. Tôi đã làm việc trong năm khoa thống kê đại học và tôi không nghĩ rằng tôi đã gặp bất kỳ ai nghĩ về thống kê như thế.
Rob Hyndman

1
@Rob Biếm họa? Tôi nghĩ rằng đây là những gì làm cho số liệu thống kê đẹp! Bạn giả sử tất cả các gaussian và tuyến tính và nó chỉ hoạt động - và có một lý do cho nó được gọi là mở rộng Taylor. Thế giới là địa ngục của một phức tạp, nhưng trong tuyến tính xấp xỉ. (thường là chín mươi-%% độ phức tạp) lúng túng tầm thường. ML (và thống kê phi tham số) xuất hiện trong một vài phần trăm các tình huống trong đó cần một số cách tiếp cận tinh tế hơn. Đây chỉ là bữa trưa miễn phí - nếu bạn muốn các định lý, bạn cần các giả định; nếu bạn không muốn các giả định, bạn cần các phương pháp gần đúng.

@mbq. Đủ công bằng. Tôi phải giải thích sai ý kiến ​​của bạn.
Rob Hyndman

4

Có một câu trả lời tầm thường - không có ước tính tham số trong học máy! Chúng tôi không cho rằng các mô hình của chúng tôi tương đương với một số mô hình nền ẩn; chúng tôi coi cả thực tế và mô hình là hộp đen và chúng tôi cố gắng lắc hộp mô hình (đào tạo theo thuật ngữ chính thức) để đầu ra của nó sẽ tương tự như hộp thực tế.

Khái niệm không chỉ khả năng mà toàn bộ lựa chọn mô hình dựa trên dữ liệu huấn luyện được thay thế bằng cách tối ưu hóa độ chính xác (bất cứ điều gì được xác định; về nguyên tắc tính tốt trong sử dụng mong muốn) trên dữ liệu không nhìn thấy; điều này cho phép tối ưu hóa cả độ chính xác và thu hồi theo cách kết hợp. Điều này dẫn đến khái niệm về khả năng khái quát hóa, đạt được theo những cách khác nhau tùy thuộc vào loại người học.

Câu trả lời cho câu hỏi hai phụ thuộc nhiều vào định nghĩa; Tuy nhiên, tôi nghĩ rằng các số liệu thống kê phi tham số là một cái gì đó kết nối cả hai.


Tôi không chắc chắn rằng điều này là hoàn toàn chính xác. Theo nghĩa nào thì các phương pháp học máy hoạt động mà không cần ước lượng tham số (trong một bộ mô hình tham số hoặc không phân phối)?
John L. Taylor

1
Bạn đang ước tính / tính toán một cái gì đó (thuật ngữ chính xác có thể khác nhau). Ví dụ, hãy xem xét một mạng lưới thần kinh. Bạn không tính toán trọng lượng cho mạng khi bạn đang cố gắng dự đoán một cái gì đó? Ngoài ra, khi bạn nói rằng bạn đào tạo để phù hợp với đầu ra với thực tế, bạn dường như đang ngầm nói về một số chức năng mất.

@John, @Srikant Người học có các tham số, nhưng đó không phải là các tham số theo nghĩa thống kê. Xem xét hồi quy tuyến tính y = a x (không có thuật ngữ miễn phí cho simp.). a là một tham số mà các phương thức thống kê sẽ phù hợp, cung cấp bởi giả định rằng y = a x. Học máy sẽ chỉ thử tạo ra một x khi được yêu cầu x trong phạm vi tàu (điều này có ý nghĩa, vì nó không giả sử y = a x); nó có thể phù hợp với hàng trăm thông số để làm điều này.

3
[cần dẫn nguồn]. Nói cách khác, câu trả lời hấp dẫn, mặc dù nó không có ý nghĩa (ít nhất) với rất nhiều tài liệu ML.
vui vẻ

1
Cổ điển là "Mô hình thống kê: Hai nền văn hóa" của Breiman.

2

Tôi không nghĩ có một ý tưởng cơ bản xung quanh việc ước tính tham số trong Machine Learning. Đám đông ML sẽ vui vẻ tối đa hóa khả năng hoặc hậu thế, miễn là các thuật toán có hiệu quả và dự đoán "chính xác". Trọng tâm là tính toán, và kết quả từ số liệu thống kê được sử dụng rộng rãi.

Nếu bạn đang tìm kiếm những ý tưởng cơ bản nói chung, thì trong lý thuyết học tập tính toán, PAC là trung tâm; trong lý thuyết học thống kê, giảm thiểu rủi ro cấu trúc ; và có những lĩnh vực khác (ví dụ, xem bài đăng Khoa học dự đoán của John Langford).

Trên số liệu thống kê bắc cầu / ML, sự phân chia dường như quá lớn. Tôi thích câu trả lời của gappy cho câu hỏi "Hai nền văn hóa".


Đám đông thống kê đang nhấp ngẫu nhiên trong SPSS cho đến khi giá trị p mong muốn xuất hiện ...

1

Bạn có thể viết lại một vấn đề tối đa hóa khả năng thành một vấn đề tối thiểu hóa tổn thất bằng cách xác định tổn thất là khả năng nhật ký âm. Nếu khả năng là một sản phẩm của xác suất độc lập hoặc mật độ xác suất, thì tổn thất sẽ là tổng của các thuật ngữ độc lập, có thể được tính toán hiệu quả. Hơn nữa, nếu các biến ngẫu nhiên được phân phối bình thường, vấn đề giảm thiểu tổn thất tương ứng sẽ là một vấn đề bình phương nhỏ nhất.

Nếu có thể tạo ra một vấn đề giảm thiểu tổn thất bằng cách viết lại tối đa hóa khả năng tối đa hóa, thì điều này nên là để tạo ra một vấn đề giảm thiểu tổn thất từ ​​đầu, vì nó sẽ làm phát sinh vấn đề giảm thiểu tổn thất (hy vọng) nhiều hơn lý thuyết thành lập và ít ad hoc. Ví dụ: các trọng số, chẳng hạn như trong các bình phương có trọng số nhỏ nhất, mà bạn thường phải dự đoán các giá trị, sẽ chỉ xuất hiện từ quá trình viết lại bài toán tối đa hóa khả năng ban đầu và đã có (hy vọng) các giá trị tối ưu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.