Bayesian: "Xin chào, Người học máy!"
Người thường xuyên: "Xin chào, Người học máy!"
Học máy: "Tôi nghe nói các bạn rất giỏi về công cụ. Đây là một số dữ liệu."
F: "Có, hãy viết ra một mô hình và sau đó tính toán MLE."
B: "Này, F, đó không phải là những gì bạn đã nói với tôi ngày hôm qua! Tôi có một số dữ liệu đơn biến và tôi muốn ước tính phương sai, và tôi đã tính MLE. Sau đó, bạn vồ lấy tôi và bảo tôi chia cho thay vì bởinn - 1viết sai rồi . "
F: "À đúng, cảm ơn vì đã nhắc nhở tôi. Tôi thường nghĩ rằng tôi nên sử dụng MLE cho mọi thứ, nhưng tôi quan tâm đến các công cụ ước tính không thiên vị , v.v."
ML: "Eh, cái này triết lý về cái gì? Nó sẽ giúp tôi chứ?"
F: "OK, công cụ ước tính là một hộp đen, bạn đưa dữ liệu vào và nó cung cấp cho bạn một số con số. Chúng tôi thường không quan tâm đến cách thức hộp được xây dựng, về những nguyên tắc được sử dụng để thiết kế nó. Ví dụ: Tôi không biết cách lấy quy tắc . "÷ ( n - 1 )
ML: "Vậy, bạn quan tâm điều gì?"
F: "Đánh giá."
ML: "Tôi thích âm thanh của nó."
F: "Hộp đen là hộp đen. Nếu ai đó tuyên bố một công cụ ước tính cụ thể là công cụ ước tính không thiên vị cho , thì chúng tôi thử lần lượt nhiều giá trị của , tạo ra nhiều mẫu từ mỗi dựa trên một số mô hình giả định, đẩy chúng qua công cụ ước tính và tìm ước tính trung bình . Nếu chúng tôi có thể chứng minh rằng ước tính dự kiến bằng giá trị thực, cho tất cả các giá trị, thì chúng tôi nói rằng nó không thiên vị. "q qθθθ
ML: "Nghe hay đấy! Nghe có vẻ như những người thường xuyên là những người thực dụng. Bạn đánh giá mỗi hộp đen bằng kết quả của nó. Đánh giá là chìa khóa."
F: "Thật vậy! Tôi hiểu các bạn có cách tiếp cận tương tự. Xác thực chéo, hay cái gì đó? Nhưng điều đó nghe có vẻ lộn xộn với tôi."
ML: "Lộn xộn?"
F: "Ý tưởng kiểm tra công cụ ước tính của bạn trên dữ liệu thực có vẻ nguy hiểm đối với tôi. Dữ liệu thực nghiệm bạn sử dụng có thể có tất cả các loại vấn đề với nó và có thể không hoạt động theo mô hình mà chúng tôi đã đồng ý để đánh giá."
ML: "Cái gì? Tôi nghĩ bạn nói rằng bạn đã chứng minh một số kết quả? Rằng công cụ ước tính của bạn sẽ luôn không thiên vị, cho tất cả ."θ
F: "Có. Mặc dù phương pháp của bạn có thể đã hoạt động trên một tập dữ liệu (tập dữ liệu với dữ liệu kiểm tra và dữ liệu thử nghiệm) mà bạn đã sử dụng trong đánh giá của mình, tôi có thể chứng minh rằng phương pháp của tôi sẽ luôn hoạt động."
ML: "Cho tất cả các bộ dữ liệu?"
F: "Không."
ML: "Vì vậy, phương pháp của tôi đã được xác thực chéo trên một tập dữ liệu. Bạn chưa kiểm tra phương pháp của bạn trên bất kỳ tập dữ liệu thực nào?"
F: "Đúng vậy."
ML: "Điều đó đặt tôi vào vị trí dẫn đầu! Phương pháp của tôi tốt hơn phương pháp của bạn. Nó dự đoán ung thư 90% thời gian. 'Bằng chứng' của bạn chỉ có giá trị nếu toàn bộ dữ liệu hành xử theo mô hình mà bạn giả định."
F: "Emm, yeah, tôi cho là vậy."
ML: "Và khoảng thời gian đó có phạm vi bảo hiểm 95% . Nhưng tôi không ngạc nhiên nếu nó chỉ chứa giá trị chính xác của 20% thời gian?"θ
F: "Điều đó đúng. Trừ khi dữ liệu thực sự là bình thường (hoặc bất cứ điều gì), bằng chứng của tôi là vô ích."
ML: "Vì vậy, đánh giá của tôi đáng tin cậy và toàn diện hơn? Nó chỉ hoạt động trên các bộ dữ liệu tôi đã thử cho đến nay, nhưng ít nhất chúng là bộ dữ liệu thực sự, mụn cóc và tất cả. Có bạn, cố gắng khẳng định bạn là người bảo thủ hơn 'và' kỹ lưỡng 'và rằng bạn quan tâm đến việc kiểm tra mô hình và công cụ. "
B: (xen vào) "Này các bạn, Xin lỗi vì làm gián đoạn. Tôi rất muốn bước vào và cân bằng mọi thứ, có lẽ thể hiện một số vấn đề khác, nhưng tôi thực sự thích xem đồng nghiệp thường xuyên của tôi vặn vẹo."
F: "Ái chà!"
ML: "OK, trẻ em. Đó là tất cả về đánh giá. Công cụ ước tính là một hộp đen. Dữ liệu đi vào, dữ liệu xuất hiện. Chúng tôi phê duyệt hoặc không chấp thuận công cụ ước tính dựa trên cách thức thực hiện đánh giá. Chúng tôi không quan tâm về 'công thức' hoặc 'nguyên tắc thiết kế' được sử dụng. "
F: "Vâng. Nhưng chúng tôi có những ý tưởng rất khác nhau về việc đánh giá nào là quan trọng. ML sẽ thực hiện kiểm tra và kiểm tra dữ liệu thực. Trong khi đó tôi sẽ thực hiện một đánh giá tổng quát hơn (vì nó liên quan đến một bằng chứng áp dụng rộng rãi) và cũng hạn chế hơn (vì tôi không biết liệu tập dữ liệu của bạn có thực sự được rút ra từ các giả định mô hình hóa mà tôi sử dụng trong khi thiết kế đánh giá của mình không.) "
ML: "Bạn sử dụng đánh giá gì, B?"
F: (xen vào) "Này. Đừng làm tôi cười. Anh ấy không đánh giá bất cứ điều gì. Anh ấy chỉ sử dụng niềm tin chủ quan của mình và chạy theo nó. Hoặc một cái gì đó."
B: "Đó là cách giải thích phổ biến. Nhưng cũng có thể định nghĩa chủ nghĩa Bayes bằng các đánh giá ưa thích. Sau đó, chúng tôi có thể sử dụng ý tưởng rằng không ai trong chúng tôi quan tâm những gì trong hộp đen, chúng tôi chỉ quan tâm đến các cách khác nhau để đánh giá."
B tiếp tục: "Ví dụ cổ điển: Xét nghiệm y tế. Kết quả xét nghiệm máu là dương tính hoặc âm tính. Một người thường xuyên sẽ quan tâm đến những người khỏe mạnh, tỷ lệ nào có kết quả âm tính. Và tương tự, tỷ lệ người bị bệnh sẽ có kết quả dương tính. Người thường xuyên sẽ tính toán những phương pháp này cho từng phương pháp xét nghiệm máu đang được xem xét và sau đó khuyên chúng tôi nên sử dụng xét nghiệm có cặp điểm số tốt nhất. "
F: "Chính xác. Bạn muốn gì hơn nữa?"
B: "Thế còn những cá nhân có kết quả xét nghiệm dương tính thì sao? Họ sẽ muốn biết 'trong số những người có kết quả dương tính, có bao nhiêu người sẽ bị bệnh?' và 'trong số những người nhận được kết quả tiêu cực, có bao nhiêu người khỏe mạnh?' "
ML: "À đúng, có vẻ như là một cặp câu hỏi hay hơn."
F: "HỌ!"
B: "Chúng ta lại đi. Anh ấy không thích nơi này sẽ diễn ra."
ML: "Đây là về 'linh mục', phải không?"
F: "NGAY".
B: "Dù sao, vâng, bạn đúng ML. Để tính tỷ lệ những người có kết quả tích cực bị bệnh, bạn phải thực hiện một trong hai điều. Một lựa chọn là chạy thử nghiệm trên nhiều người và chỉ cần quan sát tỷ lệ có liên quan. Chẳng hạn, có bao nhiêu người trong số họ chết vì căn bệnh này. "
ML: "Nghe có vẻ giống như những gì tôi làm. Sử dụng đào tạo và kiểm tra."
B: "Nhưng bạn có thể tính toán những con số này trước, nếu bạn sẵn sàng đưa ra một giả định về tỷ lệ ốm đau trong dân số. Người thường xuyên cũng đưa ra các phép tính của mình trước, nhưng không sử dụng tỷ lệ Bệnh cấp độ dân số này."
F: "NHỮNG ĐÁNH GIÁ HẤP DẪN HƠN."
B: "Ôi im đi. Trước đó, bạn đã bị phát hiện. ML phát hiện ra rằng bạn cũng thích những giả định vô căn cứ như bất kỳ ai. Xác suất bảo hiểm 'đã được chứng minh' của bạn sẽ không chồng chất trong thế giới thực trừ khi tất cả các giả định của bạn đứng lên. Tại sao giả định trước của tôi rất khác nhau? Bạn gọi tôi là điên, nhưng bạn giả vờ giả định của bạn là công việc của một phân tích bảo thủ, vững chắc, không giả định. "
B (tiếp theo): "Dù sao, ML, như tôi đã nói. Bayes thích một kiểu đánh giá khác. Chúng tôi quan tâm nhiều hơn đến việc điều chỉnh dữ liệu quan sát và tính toán độ chính xác của công cụ ước tính của chúng tôi. Chúng tôi không thể thực hiện đánh giá này mà không sử dụng một ưu tiên. Nhưng điều thú vị là, một khi chúng ta quyết định hình thức đánh giá này và một khi chúng ta chọn trước, chúng ta có một 'công thức' tự động để tạo ra một công cụ ước tính thích hợp. Người thường xuyên không có công thức như vậy. công cụ ước lượng không thiên vị cho một mô hình phức tạp, anh ta không có cách tự động nào để xây dựng một công cụ ước tính phù hợp. "
ML: "Và bạn làm gì? Bạn có thể tự động xây dựng một công cụ ước tính?"
B: "Có. Tôi không có cách tự động để tạo một công cụ ước lượng không thiên vị, bởi vì tôi nghĩ rằng thiên vị là một cách tồi để đánh giá một công cụ ước tính. Nhưng tôi đã đưa ra ước tính dựa trên dữ liệu có điều kiện mà tôi thích, và trước đó, tôi có thể kết nối trước và khả năng cung cấp cho tôi công cụ ước tính. "
ML: "Vì vậy, dù sao đi nữa, chúng ta hãy tóm tắt lại. Tất cả chúng ta đều có những cách khác nhau để đánh giá các phương pháp của mình và có lẽ chúng ta sẽ không bao giờ đồng ý về phương pháp nào là tốt nhất."
B: "Chà, điều đó không công bằng. Chúng tôi có thể trộn và kết hợp chúng. Nếu bất kỳ ai trong chúng tôi có dữ liệu đào tạo được dán nhãn tốt, có lẽ chúng tôi nên kiểm tra chống lại nó. Và nói chung tất cả chúng tôi nên kiểm tra càng nhiều giả định càng tốt. Và một số 'người thường xuyên 'bằng chứng cũng có thể thú vị, dự đoán hiệu suất theo một số mô hình tạo dữ liệu được cho là. "
F: "Vâng các bạn. Hãy thực dụng về đánh giá. Thực ra, tôi sẽ không bị ám ảnh bởi các tính chất mẫu vô hạn. Tôi đã yêu cầu các nhà khoa học đưa cho tôi một mẫu vô hạn, nhưng họ vẫn chưa làm được. đã đến lúc tôi tập trung trở lại vào các mẫu hữu hạn. "
ML: "Vì vậy, chúng tôi chỉ có một câu hỏi cuối cùng. Chúng tôi đã tranh luận rất nhiều về cách đánh giá các phương thức của chúng tôi, nhưng làm thế nào để chúng tôi tạo ra các phương thức của mình."
B: "Ah. Như tôi đã nhận được trước đó, người Bayes có phương pháp chung mạnh mẽ hơn. Nó có thể phức tạp, nhưng chúng tôi luôn có thể viết một số loại thuật toán (có thể là một dạng MCMC ngây thơ) sẽ lấy mẫu từ sau của chúng tôi. "
F (xen kẽ): "Nhưng nó có thể có sai lệch."
B: "Vậy có thể là phương pháp của bạn. Tôi có cần nhắc nhở bạn rằng MLE thường bị sai lệch không? Đôi khi, bạn gặp khó khăn rất lớn trong việc tìm kiếm các công cụ ước lượng không thiên vị, và ngay cả khi bạn có một công cụ ước tính ngu ngốc (đối với một số mô hình thực sự phức tạp) sẽ nói phương sai là tiêu cực. Và bạn gọi đó là không thiên vị. Không thiên vị, vâng. Nhưng hữu ích, không! "
ML: "OK các bạn. Bạn đang phát cuồng trở lại. Hãy để tôi hỏi bạn một câu, F. Bạn đã bao giờ so sánh sự thiên vị của phương pháp của bạn với sự thiên vị của phương pháp B, khi cả hai bạn cùng làm việc với cùng một vấn đề chưa?"
F: "Vâng. Trên thực tế, tôi ghét phải thừa nhận điều đó, nhưng cách tiếp cận của B đôi khi có độ lệch và MSE thấp hơn so với ước tính của tôi!"
ML: "Bài học ở đây là, trong khi chúng tôi không đồng ý một chút về đánh giá, không ai trong chúng tôi có độc quyền về cách tạo công cụ ước tính có các thuộc tính mà chúng tôi muốn."
B: "Vâng, chúng tôi nên đọc công việc của nhau nhiều hơn một chút. Chúng tôi có thể truyền cảm hứng cho nhau cho những người ước tính. Chúng tôi có thể thấy rằng những người ước tính khác làm việc rất tốt, vượt trội, về những vấn đề của chính chúng tôi."
F: "Và tôi nên ngừng ám ảnh về sự thiên vị. Một người ước lượng không thiên vị có thể có phương sai vô lý. Tôi cho rằng tất cả chúng ta phải 'chịu trách nhiệm' về những lựa chọn mà chúng ta đưa ra trong cách đánh giá và các tính chất mà chúng ta muốn thấy trong các công cụ ước tính của mình. Chúng ta không thể cản trở một triết lý. Hãy thử tất cả các đánh giá bạn có thể. Và tôi sẽ tiếp tục lén nhìn vào văn học Bayes để có ý tưởng mới cho những người ước tính! "
B: "Trên thực tế, nhiều người không thực sự biết triết lý của chính họ là gì. Tôi thậm chí không chắc chắn về bản thân mình. Nếu tôi sử dụng một công thức Bayes, và sau đó chứng minh một số kết quả lý thuyết tốt đẹp, điều đó không có nghĩa là tôi Một người thường xuyên quan tâm đến các bằng chứng trên về hiệu suất, anh ta không quan tâm đến công thức nấu ăn. Và nếu tôi thực hiện một số bài kiểm tra thử nghiệm (hoặc tốt), điều đó có nghĩa là tôi là người học máy? "
ML: "Có vẻ như tất cả chúng ta đều khá giống nhau."