Nền tảng của tôi chủ yếu là học máy và tôi đã cố gắng tìm hiểu ý nghĩa của thử nghiệm giả thuyết Bayes. Tôi ổn với cách giải thích bayesian về xác suất và tôi quen với nó trong bối cảnh các mô hình đồ họa xác suất. Tuy nhiên, điều làm tôi bối rối là từ "Giả thuyết" nghĩa là gì trong bối cảnh suy luận thống kê.
Tôi nghĩ rằng tôi chủ yếu bị nhầm lẫn về từ vựng mà tôi đã quen với việc học máy so với những gì thường được sử dụng trong thống kê và suy luận.
Trong bối cảnh học tập có giám sát , tôi thường nghĩ về giả thuyết là hàm dự đoán ánh xạ các ví dụ tới các nhãn của nó, ví dụ . Tuy nhiên, dường như đối với tôi, thuật ngữ giả thuyết, trong các bài đọc mà tôi đang làm không có cùng ý nghĩa. Hãy để tôi dán một đoạn trích các bài đọc tôi đang đọc:
Nếu bạn đọc kỹ nó cũng nói:
có một mô hình khác nhau cho dữ liệu được quan sát ...
họ đã sử dụng mô hình từ. Đối với tôi mô hình từ làm cho tôi nghĩ về một tập hợp các hàm là chúng tôi chọn một hàm dự đoán cụ thể. tức là một lớp giả thuyết về chức năng. Ví dụ: có thể là lớp giả thuyết của các hàm bậc hai (đa thức bậc 2). Tuy nhiên, dường như đối với tôi, họ sử dụng mô hình từ và giả thuyết là đồng nghĩa trong trích đoạn này (trong đó đối với tôi chúng là những từ hoàn toàn khác nhau).
Sau đó, chúng ta sẽ đề cập đến việc chúng ta có thể đưa các linh mục vào giả thuyết (một điều hoàn toàn hợp lý để làm trong một khung cảnh bay bổng):
ngoài ra chúng ta có thể mô tả dữ liệu bằng một giả thuyết hiện tại:
và cập nhật niềm tin hiện tại của chúng tôi với một số dữ liệu (và quy tắc của Baye):
Tuy nhiên, tôi đoán rằng tôi quen với việc đưa ước lượng bayes vào một tham số cụ thể (giả sử ) từ một lớp giả thuyết hơn là cho toàn bộ lớp giả thuyết. Về cơ bản vì dường như những "giả thuyết" này không giống với những giả thuyết từ bối cảnh học máy mà tôi đã quen, dường như những giả thuyết này giống với một tham số cụ thể hơn là một lớp giả thuyết.θ
Tại thời điểm này, tôi đã bị thuyết phục rằng "giả thuyết" có nghĩa là điều tương tự như trong các chức năng tiên đoán (parametrized bởi một tham số , ví dụ), nhưng tôi nghĩ rằng tôi đã sai ...
Để làm cho sự nhầm lẫn của tôi trở nên tồi tệ hơn, sau đó, chính những bài đọc này đã đi trước để xác định một "giả thuyết" cụ thể cho từng ví dụ đào tạo mà họ quan sát được. Hãy để tôi dán một đoạn trích những gì tôi muốn nói:
Lý do khiến điều này làm tôi bối rối là vì, nếu tôi diễn giải giả thuyết là một tham số, thì đối với tôi, việc chỉ định một tham số cụ thể cho từng giá trị mẫu mà chúng ta thấy sẽ vô nghĩa. Tại thời điểm này tôi đã kết luận rằng tôi thực sự không biết ý nghĩa của giả thuyết đó là gì nên tôi đã đăng câu hỏi này.
Tuy nhiên, tôi đã không từ bỏ hoàn toàn, tôi đã nghiên cứu giả thuyết có nghĩa là gì trong thống kê thường xuyên và tìm thấy video khan sau đây của học viện . Video đó thực sự rất có ý nghĩa với tôi (có thể bạn là người thường xuyên! :) . Tuy nhiên, dường như họ nhận được một loạt dữ liệu (như một số "tập hợp mẫu") và dựa trên các thuộc tính của tập mẫu, họ quyết định chấp nhận hay từ chối giả thuyết khống về dữ liệu. Tuy nhiên, trong bối cảnh Bayes mà tôi đang đọc, đối với tôi, đối với mỗi vectơ [điểm] dữ liệu được quan sát, họ "gắn nhãn" với một giả thuyết với "Kiểm tra tỷ lệ khả năng":
Cách họ gán giả thuyết cho từng mẫu dữ liệu, thậm chí có vẻ như một thiết lập học tập có giám sát là chúng tôi đang gắn nhãn cho mỗi tập huấn luyện. Tuy nhiên, tôi không nghĩ đó là những gì họ đang làm trong bối cảnh này. Họ đang làm gì? Việc gán một giả thuyết cho mỗi mẫu dữ liệu có nghĩa là gì? Ý nghĩa của một giả thuyết là gì? Mô hình từ có nghĩa là gì?
Về cơ bản, sau lời giải thích dài về sự nhầm lẫn này của tôi, có ai biết thử nghiệm giả thuyết Bayes có nghĩa gì trong bối cảnh này không?
Nếu bạn cần bất kỳ sự làm rõ hoặc bất cứ điều gì để cải thiện câu hỏi của tôi hoặc để câu hỏi có ý nghĩa, tôi rất vui lòng giúp đỡ :)
Trong quá trình tìm kiếm câu trả lời tôi đã tìm thấy một số điều hữu ích liên quan đến kiểm tra giả thuyết thống kê:
Điều này đề cập đến một giới thiệu tốt về chủ đề nếu bạn đến từ một nền tảng CS (như tôi):
Giới thiệu tốt về kiểm tra giả thuyết thống kê cho các nhà khoa học máy tính là gì?
Tại một số điểm tôi đã hỏi về "tham số mặc định" (mà tôi nên xác định ý tôi là gì. Tôi nghĩ đó là một thuật ngữ tiêu chuẩn nhưng không phải vậy, vì vậy ở đây tôi sẽ giải quyết nó) và tôi nghĩ điều tôi thực sự muốn nói là làm thế nào bạn xác định tham số cho từng giả thuyết mà bạn có. Ví dụ, làm thế nào để bạn quyết định giả thuyết null của bạn là gì và các tham số của nó. Có một câu hỏi liên quan đến điều đó:
Làm thế nào để xác định giả thuyết khống trong thử nghiệm giả thuyết