Tại sao nó rất quan trọng để có các lý thuyết nguyên tắc và toán học cho Machine Learning?


25

Tôi đã tự hỏi, tại sao việc học máy theo nguyên tắc / lý thuyết lại quan trọng đến vậy? Từ quan điểm cá nhân như một con người, tôi có thể hiểu tại sao Machine Learning nguyên tắc lại quan trọng:

  • con người thích hiểu những gì họ đang làm, chúng ta tìm thấy vẻ đẹp và sự hài lòng để hiểu.
  • từ quan điểm lý thuyết, toán học là niềm vui
  • khi có những nguyên tắc hướng dẫn thiết kế mọi thứ, sẽ có ít thời gian hơn cho việc đoán ngẫu nhiên, thử nghiệm và lỗi lạ. Nếu chúng ta hiểu, nói, làm thế nào mạng lưới thần kinh thực sự hoạt động, có lẽ chúng ta có thể dành thời gian tốt hơn để thiết kế chúng thay vì số lượng lớn thử nghiệm và lỗi xảy ra ngay bây giờ.
  • gần đây hơn, nếu các nguyên tắc rõ ràng và lý thuyết cũng rõ ràng, thì nên có (hy vọng) sự minh bạch hơn cho hệ thống. Điều này là tốt bởi vì nếu chúng ta hiểu hệ thống đang hoạt động như thế nào, thì AI có nguy cơ khiến nhiều người cường điệu về khá nhiều ngay lập tức.
  • các nguyên tắc dường như là một cách ngắn gọn để tóm tắt các cấu trúc quan trọng mà thế giới có thể có và khi nào nên sử dụng một công cụ thay vì một công cụ khác.

Tuy nhiên, những lý do này có đủ mạnh thực sự để biện minh cho một nghiên cứu lý thuyết mãnh liệt về học máy không? Một trong những chỉ trích lớn nhất về lý thuyết là vì quá khó để thực hiện, họ thường kết thúc việc nghiên cứu một số trường hợp rất hạn chế hoặc các giả định phải đưa về cơ bản làm cho kết quả trở nên vô dụng. Tôi nghĩ rằng tôi đã nghe điều này một lần tại một cuộc nói chuyện tại MIT bởi người tạo ra Tor. Rằng một số lời chỉ trích về Tor mà anh đã nghe là lý luận về lý thuyết nhưng về cơ bản, mọi người không bao giờ có thể chứng minh mọi thứ về các kịch bản thực của cuộc sống thực bởi vì chúng quá phức tạp.

Trong kỷ nguyên mới này với rất nhiều sức mạnh tính toán và dữ liệu, chúng ta có thể kiểm tra các mô hình của mình bằng các bộ dữ liệu thực và các bộ kiểm tra. Chúng ta có thể thấy nếu mọi thứ hoạt động bằng cách sử dụng chủ nghĩa kinh nghiệm. Thay vào đó, nếu chúng ta có thể đạt được AGI hoặc các hệ thống hoạt động với kỹ thuật và kinh nghiệm, thì vẫn đáng để theo đuổi lý thuyết nguyên tắc và lý thuyết cho việc học máy, đặc biệt là khi giới hạn định lượng rất khó đạt được, nhưng trực giác và câu trả lời định tính thì dễ dàng hơn nhiều đạt được với một cách tiếp cận hướng dữ liệu? Cách tiếp cận này không có sẵn trong các số liệu thống kê cổ điển, đó là lý do tại sao tôi nghĩ rằng lý thuyết rất quan trọng vào thời đó, bởi vì toán học là cách duy nhất chúng ta có thể chắc chắn rằng mọi thứ đều đúng hoặc chúng thực sự hoạt động theo cách chúng ta nghĩ.

Cá nhân tôi luôn yêu thích và nghĩ rằng lý thuyết và một cách tiếp cận nguyên tắc là quan trọng. Nhưng với sức mạnh của việc có thể thử mọi thứ với dữ liệu thực và sức mạnh tính toán đã khiến tôi tự hỏi liệu nỗ lực cao (và có khả năng thưởng thấp) của việc theo đuổi lý thuyết có còn xứng đáng hay không.

Là lý thuyết và nguyên tắc theo đuổi học máy thực sự quan trọng?


"Không có lý thuyết, bạn đang dựa vào hy vọng rằng kết quả thực nghiệm áp dụng cho bất kỳ bộ dữ liệu mới nào mà bạn sẽ áp dụng phương pháp ML. Tuy nhiên, một số tính chất hoặc giả định xảy ra khi bạn quan sát kết quả thực nghiệm của bạn có thể không nhất thiết phải tiến về phía trước trên bộ dữ liệu mới. "
Charlie Parker

Câu trả lời:


17

Không có câu trả lời đúng cho vấn đề này, nhưng, có lẽ, "mọi thứ trong chừng mực." Trong khi nhiều cải tiến gần đây trong học máy, nghĩa là bỏ học, kết nối còn lại, kết nối dày đặc, bình thường hóa hàng loạt, không bắt nguồn từ lý thuyết đặc biệt sâu sắc (hầu hết có thể được biện minh trong một vài đoạn), tôi nghĩ cuối cùng có một tắc nghẽn cho bao nhiêu kết quả như vậy có thể tạo ra một tác động rất lớn. Tại một số điểm bạn phải ngồi xuống và tìm ra một số lý thuyết bổ sung để thực hiện bước nhảy vọt tiếp theo. Đồng thời, lý thuyết có thể hướng dẫn trực giác bởi vì nó có thể chứng minh chất lượng hoặc giới hạn của một mô hình trong phạm vi nghi ngờ hợp lý. Điều này đặc biệt quan trọng để tìm ra nếu nói, SGD tốt hơn Động lượng cho một vấn đề cụ thể. Đó là điều hay về lý thuyết: nó buộc bạn phải trừu tượng hóa vấn đề bạn đang giải quyết,

Ví dụ lớn xuất hiện trong tâm trí là các máy vectơ hỗ trợ. Ban đầu, chúng được phát minh bởi Vapnik và Chervonenkis vào đầu những năm 60, nhưng thực sự đã phát triển vào đầu những năm 90 khi Vapnik và những người khác nhận ra rằng bạn có thể thực hiện các SVM phi tuyến bằng cách sử dụng Kernel Trick. Vapnik và Chervonenkis cũng đưa ra lý thuyết đằng sau chiều kích của VC, đó là một nỗ lực để đưa ra một biện pháp phức tạp cho máy học. Tôi không thể nghĩ ra bất kỳ ứng dụng thực tế nào về kích thước VC, nhưng tôi nghĩ ý tưởng về các SVM có thể bị ảnh hưởng bởi công việc của họ về điều này. Bản thân Kernel Trick xuất phát từ toán học trừu tượng vô nghĩa về không gian Hilbert. Có thể hơi căng thẳng khi nói rằng cần phải biết điều vô nghĩa trừu tượng này để đưa ra các SVM, nhưng, tôi nghĩ rằng nó có thể giúp ích khá nhiều, đặc biệt là vì nó có rất nhiều nhà toán học hào hứng với việc học máy.

Về chủ đề ResNet, gần đây đã có một số công việc thực sự gọn gàng cho thấy các kiến ​​trúc còn sót lại thực sự không cần phải sâu 100 lớp. Trong thực tế, một số nghiên cứu cho thấy các kết nối còn lại rất giống với RNN, ví dụ: Thu hẹp khoảng cách giữa học tập dư thừa, Mạng thần kinh tái phát và Visual Cortex ", Liao và cộng sự. Tôi nghĩ rằng điều này chắc chắn khiến nó đáng để tìm hiểu sâu hơn bởi vì nó cho thấy rằng nó đáng để tìm hiểu sâu hơn bởi vì nó gợi ý rằng về mặt lý thuyết, ResNet với nhiều lớp trên thực tế là không hiệu quả và cồng kềnh.

Các ý tưởng cho việc cắt gradient cho RNNs đã được chứng minh rất rõ trong bài báo nổi tiếng hiện nay " Về khó khăn trong việc đào tạo mạng lưới thần kinh tái phát " - Pascanu, et. al. Mặc dù bạn có thể nghĩ ra việc cắt gradient mà không cần tất cả lý thuyết, tôi nghĩ rằng nó sẽ đi một chặng đường dài để hiểu tại sao RNNs rất khó đào tạo mà không làm điều gì đó lạ mắt, đặc biệt là bằng cách vẽ các phép tương tự lên bản đồ hệ thống động lực (như bài báo ở trên ).

Có rất nhiều hứng thú về các phương pháp Entropy Stochastic Gradient Descent . Chúng được lấy từ động lực học Langevin, và phần lớn kết quả lý thuyết được bắt nguồn vững chắc trong lý thuyết PDE lý thuyết cổ điển và vật lý thống kê. Kết quả rất hứa hẹn vì họ đưa SGD sang một khía cạnh mới, về cách nó bị mắc kẹt trong biến động cục bộ của hàm mất và làm thế nào người ta có thể làm mịn chức năng mất để làm cho SGD hiệu quả hơn nhiều. Nó đi một chặng đường dài hướng tới sự hiểu biết khi SGD hữu ích và khi nó cư xử kém. Đây không phải là thứ bạn có thể rút ra theo kinh nghiệm bằng cách thử SGD trên các loại mô hình khác nhau.

Trong bài viết Thuộc tính hấp dẫn của mạng lưới thần kinh , các tác giả tóm tắt rằng mạng lưới thần kinh rất nhạy cảm với các ví dụ đối nghịch (được định nghĩa là nhiễu loạn tính toán của hình ảnh) do hằng số Lipchitz cao giữa các lớp. Đây vẫn là một lĩnh vực nghiên cứu tích cực và chỉ có thể được hiểu rõ hơn thông qua các dẫn xuất lý thuyết hơn.

Ngoài ra còn có ví dụ về Phân tích dữ liệu tô pô , xung quanh có ít nhất một công ty ( Ayasdi ) được thành lập. Đây là một ví dụ đặc biệt thú vị bởi vì các kỹ thuật được sử dụng cho nó rất cụ thể và trừu tượng mà thậm chí từ ngày hôm nay, vẫn sẽ mất rất nhiều thời gian để xem các ý tưởng từ lý thuyết này kết thúc ở đâu. Sự hiểu biết của tôi là độ phức tạp tính toán của các thuật toán liên quan có xu hướng khá cao (nhưng một lần nữa, nó cũng cao không kém đối với các mạng thần kinh thậm chí 20 năm trước).


7

Câu trả lời cho câu hỏi này thực sự rất đơn giản. Với sự biện minh lý thuyết đằng sau mô hình học máy, ít nhất chúng ta có thể chứng minh rằng khi một số điều kiện thực tế ít nhiều được đáp ứng, có một số đảm bảo về sự tối ưu cho giải pháp. Không có nó, chúng tôi không có bất kỳ đảm bảo nào. Chắc chắn, bạn có thể nói "hãy kiểm tra xem cái gì hiệu quả và sử dụng nó cho vấn đề cụ thể", nhưng điều này không khả thi vì có số cách bạn có thể giải quyết bất kỳ vấn đề máy học nào.

Giả sử bạn muốn để dự đoán một số , đưa ra một số . Làm thế nào để bạn biết rằng không phải là một cách tối ưu để giải quyết nó? Còn thì sao? Hoặc, ? Có lẽ chỉ cần trả lại như dự đoán của bạn? Hoặc nếu là số lẻ, hãy sử dụng và trả về ? Chắc chắn, tất cả những lời đề nghị đó nghe có vẻ vô lý, nhưng làm sao bạn có thể chắc chắn, nếu không có bất kỳ lý thuyết nào, rằng một trong số chúng sẽ không tối ưu? Với vô số giải pháp khả thi, ngay cả vấn đề đơn giản nhất cũng trở nên không thể giải quyết được. Lý thuyết giới hạn "không gian tìm kiếm" của bạn về các mô hình khả thi đối với một số loại vấn đề (bạn biết mô hình nào đáng xem xét và mô hình nào không).X X + 42 X + 42,5 YXX+42X+42.5 42XX+420X4242XX+420


2
đang kiểm tra xem mô hình được đào tạo của bạn có hoạt động dựa trên xác nhận và bộ kiểm tra không đủ không? Giống như những gì đảm bảo giới hạn lý thuyết có nếu giới hạn của chúng thực sự không thể được sử dụng?
Charlie Parker

6
@CharlieParker ok, vậy hãy bắt đầu với việc xác thực chéo tất cả các mô hình trong đó nằm trong , mất bao lâu để tìm được mô hình tốt nhất? Lưu ý rằng đây chỉ là một mô hình rất đơn giản và bạn có thể làm nhiều hơn sau đó thêm hằng số, vì vậy sau khi kiểm tra số lượng vô hạn của các mô hình đó, bạn sẽ cần kiểm tra vô số các lớp mô hình vô hạn ... Ngoài ra: Làm thế nào để bạn biết rằng "hoạt động" xác thực chéo? Bạn biết điều này trên cơ sở lý thuyết . c ( - , )X+cc(,)
Tim

5

Chỉ cần nhìn vào câu hỏi: Liệu lý thuyết và nguyên tắc theo đuổi học máy có thực sự quan trọng?

Xác định những gì bạn có nghĩa là "quan trọng". Xuất phát từ quan điểm triết học, đó là một sự khác biệt cơ bản nếu bạn muốn mô tả một cái gì đó hoặc hiểu một cái gì đó. Trong một câu trả lời hơi thô thiển, đó là sự khác biệt giữa khoa học hay cái gì khác. Phần thực tế của nó không liên quan đến câu hỏi cơ bản. Nếu một cái gì đó quá khó để chứng minh, hoặc thậm chí không thể chứng minh điều này trong chính nó là một khám phá quan trọng. (Nhập Goedel et al.) Nhưng điều này không có nghĩa là nó không liên quan. Nó ít nhất có vẻ không liên quan từ quan điểm thực dụng. Nhưng nó ít nhất nên được công nhận là một cái gì đó có tầm quan trọng và giá trị chính.

Hãy xem xét một sự tương tự: y học nói chung (và từ quá khứ của nó) là không khoa học. Trong những cách nhất định nó thực sự có thể không bao giờ được. Đó là một ngành học hoàn toàn bị chi phối bởi kết quả của nó. Trong hầu hết các trường hợp, không có gì giống như "sự thật". Nhưng hóa ra, một số phần thực sự có thể là khoa học - và đây là nơi hầu hết các tiến trình theo kế hoạch đang diễn ra.

Một mô tả cực kỳ ngắn khác có thể là: không có lý thuyết bạn có thể kiếm được nhiều tiền. Nếu nó thực sự hữu ích cho một "lợi ích lớn hơn", thì bạn thậm chí có thể nhận được giải thưởng Nobel cho nó. Nhưng bạn sẽ không bao giờ có được huy chương Trường.


1
+1 Tôi thấy đây là một câu trả lời thú vị cho OP, nhưng sẽ yêu cầu bạn giải thích về y học là không khoa học. Không phải là quá trình chẩn đoán tìm ra bệnh nhân mắc bệnh gì, quá trình chẩn đoán phân biệt (một khái niệm lý thuyết về bệnh nghi ngờ) được cho là và dữ liệu được thu thập để dự đoán bệnh nào có thể xảy ra nhất? ...
IWS

(tiếp theo) ... không có tiên lượng, nơi các bác sĩ cố gắng ước tính tiến trình bệnh trong tương lai dựa trên dữ liệu có sẵn, có thể và thường được kiểm tra bằng các kết quả theo dõi và theo kinh nghiệm? Và cuối cùng, khoa học là một cuộc tìm kiếm một sự thật cao hơn nhưng tồn tại, hay chúng ta ước chừng một cấu trúc của sự thật mà chúng ta tin là có mặt ngay bây giờ?
IWS

Thật ra câu hỏi về y học chạy sâu hơn một chút. Khoa học về cơ bản chỉ là một phương pháp hoặc một quá trình. Để khoa học "hoạt động", bạn phải có khả năng kiểm tra các giả thuyết trên cơ sở bình đẳng với khả năng giả mạo vốn có. Nói tóm lại: nếu bạn không thể chứng minh một lý thuyết sai, thì đó là phi khoa học. Đối với y học, điều này có quá nhiều ý nghĩa về mặt đạo đức và vì bạn không thể đối xử với ai đó tại cùng một thời điểm với các lựa chọn giả thuyết khác nhau, việc kiểm tra giả thuyết thực sự khó khăn. [...]
cherub

Về phần thứ hai (khoa học như tìm kiếm sự thật) - một lần nữa, đó chỉ là một phương pháp. Nó dường như là phương pháp thành công nhất mà loài người đã nghĩ ra. Nhưng nó không dựa trên niềm tin, nó dựa trên sự thật. Và trong một số cách, nó cũng là một hệ thống khép kín. Không có sự phân biệt (khoa học) giữa sự thật và một thứ được xây dựng có vẻ giống nhau. Thỏa thuận giữa các nhà khoa học có thể cung cấp cho bạn một số quy tắc (ví dụ: Occams Razor), nhưng khoa học không phải là la bàn trong biển phi khoa học.
cherub

5

Con người đã có thể đóng tàu, xe ngựa và các tòa nhà trong nhiều thế kỷ mà không cần đến các định luật vật lý. Nhưng kể từ khoa học hiện đại, chúng ta đã có thể đưa những công nghệ đó lên một tầm cao mới. Một lý thuyết đã được chứng minh cho phép thực hiện các cải tiến theo cách nguyên tắc. Chúng ta sẽ không bao giờ lên mặt trăng hoặc có máy tính nếu không có một lý thuyết toán học về vật chất và tính toán.

Học máy chỉ là một lĩnh vực khoa học và kỹ thuật như bất kỳ lĩnh vực nào khác. Một cách tiếp cận nguyên tắc đối với học máy đã cung cấp cho chúng ta các máy nhân, học có cấu trúc và các phương pháp tập hợp (tăng cường, rừng ngẫu nhiên).


5

Đây là một ví dụ đơn giản từ công việc của tôi.

Tôi phù hợp với rất nhiều mạng lưới thần kinh cho kết quả liên tục. Người ta xác định các trọng số bằng cách backpropagation. Cuối cùng, nó sẽ hội tụ.

Bây giờ, chức năng kích hoạt lớp trên cùng là danh tính và mất mát của tôi là lỗi bình phương. Vì lý thuyết , tôi biết rằng vectơ trọng lượng cấp cao nhất giảm thiểu sai số bình phương là tốt trong đó là các kích hoạt ở cấp cao nhất và là kết quả. Khi tôi ngắn mạch backprop bằng cách sử dụng giải pháp dạng đóng cho các trọng số cấp cao nhất, tôi chỉ cần backprop để tối ưu hóa các trọng số cấp thấp hơn. Ay

(ATA)1ATy
Ay

Mạng của tôi hội tụ cách nhanh hơn .

Cảm ơn bạn, lý thuyết.


3

Chủ nghĩa kinh nghiệm vs Lý thuyết

Bạn đã viết:

Một trong những chỉ trích lớn nhất về lý thuyết là vì quá khó để thực hiện, họ thường kết thúc việc nghiên cứu một số trường hợp rất hạn chế hoặc các giả định phải đưa về cơ bản làm cho kết quả trở nên vô dụng.

Điều này tôi nghĩ thể hiện sự phân chia chính giữa hai quan điểm mà chúng ta có thể gọi là thực nghiệmlý thuyết .

Từ quan điểm thực nghiệm, như bạn đã mô tả, các định lý là vô dụng vì chúng không bao giờ đủ phức tạp để mô hình hóa thế giới thực. Họ nói về những kịch bản lý tưởng đơn giản hóa không áp dụng ở bất cứ đâu trong thế giới thực. Vì vậy, những điểm quan trọng trong việc làm lý thuyết.

Tuy nhiên từ quan điểm lý thuyết thì ngược lại. Chủ nghĩa kinh nghiệm có thể dạy chúng ta điều gì ngoài "Tôi đã chạy phương pháp này trên tập dữ liệu này và tốt hơn là chạy phương pháp khác trên cùng tập dữ liệu này". Điều này hữu ích cho một trường hợp nhưng nói rất ít về vấn đề.

Những gì lý thuyết làm là cung cấp một số đảm bảo. Nó cũng cho phép chúng tôi nghiên cứu các kịch bản đơn giản hóa chính xác để chúng tôi có thể bắt đầu hiểu những gì đang diễn ra.

Thí dụ

Hãy tưởng tượng một ví dụ thực tế: bạn muốn xem khái niệm trôi dạt (khi dữ liệu thay đổi theo thời gian) ảnh hưởng đến khả năng học hỏi của bạn. Làm thế nào một nhà kinh nghiệm thuần túy sẽ tiếp cận câu hỏi này? Tất cả những gì anh ta có thể làm thực sự là bắt đầu áp dụng các phương pháp khác nhau và suy nghĩ về các thủ thuật anh ta có thể làm. Toàn bộ quy trình có thể tương tự như sau:

  • Mất 300 ngày và cố gắng phát hiện xem giá trị trung bình của biến đó có thay đổi hay không. OK nó phần nào làm việc.
  • Nếu chúng ta thử 200 ngày thay thế thì sao?
  • Tốt hơn hết, chúng ta hãy thử thay đổi thuật toán một khi sự trôi dạt xảy ra.
  • Có được nhiều bộ dữ liệu hơn và xem phương pháp nào được phát triển cho đến nay hoạt động tốt nhất.
  • Kết quả không thể kết luận, có thể đoán có nhiều hơn một loại khái niệm trôi dạt?
  • Hãy thử mô phỏng. Điều gì sẽ xảy ra nếu chúng ta mô phỏng một số khái niệm trôi dạt và sau đó áp dụng các phương pháp khác nhau bằng cách sử dụng số ngày khác nhau được sử dụng để phát hiện nếu thay đổi đã xảy ra.

Những gì chúng tôi có ở đây là kết quả khá chính xác trên một vài bộ dữ liệu. Có lẽ dữ liệu đã được cập nhật thuật toán học tập dựa trên các quan sát trong 200 ngày qua cho độ chính xác cao nhất. Nhưng sẽ làm việc tương tự cho các dữ liệu khác? Làm thế nào đáng tin cậy là 200 ngày ước tính này? Mô phỏng giúp - nhưng chúng không phản ánh thế giới thực - cùng một lý thuyết vấn đề.

Bây giờ hãy tưởng tượng tương tự từ quan điểm lý thuyết:

  • Đơn giản hóa kịch bản đến mức vô lý. Có thể sử dụng phân phối chuẩn 2 biến với giá trị trung bình đột ngột thay đổi theo thời gian.
  • Chọn điều kiện của bạn rõ ràng - chọn mô hình tối ưu trên dữ liệu bình thường. Giả sử bạn biết rằng dữ liệu là bình thường. Tất cả những gì bạn không biết là khi sự thay đổi về phương tiện xảy ra.
  • Thiết bị một phương pháp để phát hiện khi sự thay đổi đã xảy ra. Một lần nữa có thể bắt đầu với 200 quan sát trong quá khứ.
  • Dựa trên các cài đặt này, chúng tôi sẽ có thể tính toán lỗi trung bình cho trình phân loại, thời gian trung bình để thuật toán phát hiện nếu thay đổi đã xảy ra và cập nhật. Có thể trường hợp xấu nhất và đảm bảo trong phạm vi 95% cơ hội.

Bây giờ kịch bản này đã rõ ràng hơn - chúng tôi đã có thể cách ly vấn đề bằng cách sửa tất cả các chi tiết. Chúng tôi biết lỗi trung bình của phân loại của chúng tôi. Có lẽ có thể ước tính số ngày cần để phát hiện sự thay đổi đó đã xảy ra. Trích dẫn những tham số này phụ thuộc vào (như có thể kích thước của sự thay đổi). Và bây giờ dựa trên một cái gì đó sản xuất một giải pháp thực tế. Nhưng quan trọng nhất trong tất cả: kết quả này (nếu được tính toán chính xác) là không thay đổi. Nó ở đây mãi mãi và bất cứ ai cũng có thể học hỏi từ nó.

Giống như một trong những người cha của học máy hiện đại - Jürgen Schmidhuber thích nói:

Heuristic đến và đi - định lý là vĩnh cửu.

Bài học từ các lĩnh vực khác

Cũng muốn nói ngắn gọn về một số tương đồng với vật lý. Tôi nghĩ họ cũng từng có tình huống khó xử này. Các nhà vật lý đang nghiên cứu các vật thể không ma sát có khối lượng vô hạn di chuyển trong không gian vô tận. Thoạt nhìn những gì điều này có thể cho chúng ta biết về thực tế nơi chúng ta muốn biết những bông tuyết di chuyển trong gió như thế nào. Nhưng cảm giác như lý thuyết đã mang chúng đi một chặng đường dài.


2

Bạn đã đề cập đến một số lý do, trong đó khả năng diễn giải kết quả ML là quan trọng nhất, theo ý kiến ​​của tôi. Hãy để chúng tôi nói người bảo vệ tài sản do AI điều khiển đã quyết định bắn con chó của người hàng xóm. Điều quan trọng là phải hiểu tại sao nó làm như vậy. Nếu không ngăn chặn điều này xảy ra trong tương lai, thì ít nhất hãy hiểu ai chịu trách nhiệm và ai sẽ trả tiền bồi thường cho chủ sở hữu.

Tuy nhiên, với tôi lý do quan trọng nhất là việc hiểu các nguyên tắc mà thuật toán được thành lập cho phép hiểu được các hạn chế của nó và cải thiện hiệu suất của nó. Xem xét việc sử dụng khoảng cách euclide trong ML. Trong nhiều thuật toán phân cụm, bạn bắt đầu với định nghĩa khoảng cách giữa các ví dụ, sau đó tiến hành tìm ranh giới giữa các tính năng của các ví dụ nhóm chúng gần nhau. Khi bạn tăng số lượng tính năng, khoảng cách euclide sẽ ngừng hoạt động tại một số điểm. Bạn có thể dành nhiều thời gian để cố gắng làm cho nó hoạt động, hoặc - nếu bạn biết rằng khoảng cách euclide như một thước đo khoảng cách không hoạt động trong giới hạn chiều vô hạn - chỉ cần chuyển sang một số liệu khoảng cách khác, chẳng hạn như Manhattan, sau đó tiến hành làm việc về các vấn đề thực sự. Bạn có thể tìm thấy rất nhiều ví dụ như ví dụ này,


2
Tôi đã nghe khẳng định này trước đây, nhưng tôi không nghĩ rằng tôi biết bất kỳ ví dụ cụ thể nào sẽ chứng minh điều này: có một ví dụ về một số dữ liệu không phân cụm tốt với khoảng cách Euclide nhưng lại phân cụm tốt với khoảng cách Manhattan?
amip nói rằng phục hồi Monica

1
@amoeba đây là tài liệu tham khảo phổ biến, mặc dù tôi đã gặp vấn đề này sớm hơn trong một bối cảnh khác. Nếu bạn nhìn vào tỷ lệ thể tích của một siêu cầu trong một hypercube đơn vị, nó co lại bằng không khi chiều của hypercube chuyển sang vô cùng. Về cơ bản ở các chiều cao hơn, tất cả các cơ thể lồi sụp xuống thành điểm - cách giải thích của tôi
Aksakal

2

Tôi nghĩ rằng rất khó để không phải là một cuộc thảo luận triết học. Câu trả lời của tôi thực sự là một cách viết lại những điểm tốt đã được đề cập ở đây (+1 cho tất cả); Tôi chỉ muốn chỉ ra một trích dẫn của Andrew Gelman đã thực sự nói với tôi như một người được đào tạo như một nhà khoa học máy tính. Tôi có ấn tượng rằng nhiều người gọi những gì họ học máy cũng đến từ khoa học máy tính. Trích dẫn từ một cuộc nói chuyện mà Gelman đã đưa ra tại Hội nghị R New York 2017 có tên là Thống kê lý thuyết là Lý thuyết về Thống kê ứng dụng :

Lý thuyết có khả năng mở rộng.

Lý thuyết cho bạn biết điều gì có ý nghĩa và điều gì không trong những điều kiện nhất định. Chúng ta có muốn thực hiện hàng ngàn hoặc hàng chục ngàn hoặc hàng triệu mô phỏng để có được ý tưởng về sự thật không? Chúng ta có muốn so sánh theo kinh nghiệm trên các bộ dữ liệu điểm chuẩn ngày càng nhiều không? Sẽ mất một thời gian và kết quả của chúng tôi có thể vẫn dễ vỡ. Hơn nữa, làm thế nào để chúng ta biết rằng các so sánh chúng ta có ý nghĩa? Làm thế nào để chúng ta biết rằng Deep Learner mới của chúng tôi với độ chính xác 99,5% thực sự tốt hơn so với cái cũ có độ chính xác 99,1%? Một số lý thuyết sẽ giúp ở đây.

Tôi là một fan hâm mộ lớn của mô phỏng và tôi sử dụng chúng rất nhiều để hiểu về thế giới (hoặc thậm chí có ý nghĩa về lý thuyết), nhưng học máy lý thuyết là lý thuyết về học máy ứng dụng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.