Mối quan hệ giữa tương quan và quan hệ nhân quả trong học máy là gì?


13

Một thực tế nổi tiếng là "Tương quan không có quan hệ nhân quả như nhau", nhưng học máy dường như gần như hoàn toàn dựa trên mối tương quan. Tôi đang làm việc trên một hệ thống để ước tính hiệu suất của học sinh đối với các câu hỏi dựa trên các màn trình diễn trước đây của họ. Không giống như các nhiệm vụ khác, như tìm kiếm của Google, đây có vẻ không phải là loại hệ thống có thể dễ dàng chơi được - vì vậy quan hệ nhân quả không thực sự liên quan đến vấn đề đó.

Rõ ràng, nếu chúng ta muốn làm thí nghiệm để tối ưu hóa hệ thống, chúng ta sẽ phải quan tâm đến sự phân biệt tương quan / nguyên nhân. Nhưng, từ quan điểm chỉ cần xây dựng một hệ thống để chọn các câu hỏi có khả năng ở mức độ khó phù hợp, sự khác biệt này có tầm quan trọng nào không?


Vui lòng xác định hoặc ít nhất là tham khảo ý nghĩa của mối quan hệ nhân quả trong "Tương quan không quan hệ nhân quả tương đương"
seteropere

Câu trả lời:


11

Không phải tất cả AI hoạt động dựa trên mối tương quan, Mạng tin tưởng Bayes được xây dựng xung quanh xác suất mà A gây ra B.

Tôi đang làm việc trên một hệ thống để ước tính hiệu suất của học sinh đối với các câu hỏi dựa trên các màn trình diễn trước đây của họ.

Tôi không nghĩ rằng bạn cần nhân quả cho việc này. Một hiệu suất trong quá khứ không gây ra một hiệu suất hiện tại. Trả lời một câu hỏi sớm không gây ra câu trả lời cho câu hỏi sau.

Nhưng từ quan điểm chỉ xây dựng một hệ thống để chọn các câu hỏi có khả năng ở mức độ khó phù hợp - sự khác biệt này có tầm quan trọng nào không?

Không, không phải cho ví dụ của bạn. Tôi nghĩ rằng mối tương quan (hoặc thậm chí ngoại suy đơn giản) sẽ giải quyết vấn đề của bạn rất tốt. Gán một số điểm khó cho từng câu hỏi và sau đó đưa ra các câu hỏi cho học sinh ở các cấp độ ngày càng khó hơn (đó là cách hầu hết các bài kiểm tra hoạt động) và sau đó khi học sinh bắt đầu hiểu sai, bạn có thể khắc phục khó khăn. Đó là một thuật toán phản hồi tương tự như việc giảm thiểu lỗi được thực hiện trên một nơron trong một tri giác đa lớp. Các phần không nhỏ của không gian đầu vào như thế này đang quyết định câu hỏi khó là gì!

Một ví dụ tốt hơn về quan hệ nhân quả trong AI sẽ là:

Xe của tôi chạy chậm lại. Máy gia tốc của tôi ở trên sàn. Không có nhiều tiếng ồn. Có đèn trên bảng điều khiển. Xác suất mà tôi hết nhiên liệu là gì?

Trong trường hợp này, hết nhiên liệu đã khiến chiếc xe giảm tốc độ. Đây chính xác là loại vấn đề mà Bayesian Belief Networks giải quyết.


"Tôi không nghĩ bạn cần nhân quả cho việc này. Một màn trình diễn trong quá khứ không gây ra hiệu suất hiện tại. Trả lời câu hỏi sớm không gây ra câu trả lời cho câu hỏi sau." - thực tế là một sinh viên đã hoàn thành một bài tập có thể khiến họ thực hiện tốt hơn trong một bài tập khác (chúng tôi cung cấp cho họ, gợi ý, ect).
Casebash

Nhưng tôi cho rằng bạn đúng, nó không quá liên quan đến mối tương quan và nguyên nhân, nhưng liệu nó có tương quan với một nguyên nhân hay không (ví dụ: học sinh trong một lớp học đặc biệt làm tốt các chủ đề hình học vì giáo viên đã đề cập chi tiết hơn, so với học sinh đã hoàn thành các chủ đề khó nhất có xu hướng có hiệu suất cao vì họ là những người duy nhất đạt được điều đó)
Casebash

Ah! Điều đó thật thú vị: Hoàn thành một bài tập và biết kết quả của nó là nguyên nhân khiến câu hỏi trở nên tốt hơn. Nhưng điều đó không thể quan sát được ở đây. Điều duy nhất bạn quan sát là các câu hỏi thi, có tương quan. Tương quan không bẩn, thật tốt khi nói hai quá trình thống kê có mối quan hệ.
Bác sĩ Rob Lang

Một nguyên nhân B là một cách giải thích của một mạng lưới niềm tin.
seteropere

6

học máy dường như gần như hoàn toàn dựa trên mối tương quan

Tôi không nghĩ vậy, ít nhất là nói chung. Ví dụ, giả định chính cho các thuật toán ML về phân tích PACphân tích kích thước VC , là dữ liệu đào tạo / kiểm tra đến từ cùng một phân phối mà dữ liệu trong tương lai sẽ có.

Vì vậy, trong hệ thống của bạn, bạn sẽ phải giả định rằng mỗi sinh viên áp đặt một loại phân phối xác suất có điều kiện tạo ra câu trả lời cho các loại câu hỏi cụ thể về các chủ đề cụ thể. Một giả định khác, và có nhiều vấn đề hơn mà bạn phải đưa ra, đó là phân phối này không thay đổi (hoặc không thay đổi nhanh).


2

Tôi đồng ý với các câu trả lời trước.

Tuy nhiên, nếu bạn quan tâm đến việc xem xét mối tương quan / quan hệ nhân quả nói chung, hai mục bạn có thể muốn xem xét là:

  • Pearl (vâng, Pearl đó ) đã sản xuất một trong số rất ít những cuốn sách hay về nó.
  • Học tăng cường , và vấn đề tên cướp đa vũ trang đều dựa trên một diễn viên đang cố gắng suy luận các khóa hành động tối ưu trong một môi trường không xác định - tức là họ phải học 'hành động' nào sẽ mang lại cho họ 'phần thưởng' tốt nhất, và do đó, trêu chọc một cách nhân quả các mối quan hệ.

2

Ngoài các câu trả lời khác, còn có một chủ đề thú vị - nếu bạn chọn thủ công các tính năng, bạn có thể muốn nghĩ về 'tương quan ngẫu nhiên' để giảm tình trạng thừa, tức là tránh các tính năng có thể tương quan với dữ liệu đào tạo của bạn nhưng sẽ không 't / không nên tương quan trong trường hợp chung - rằng không có mối quan hệ nhân quả nào.

Ví dụ thô sơ, giả sử rằng bạn lấy một bảng dữ liệu về kết quả kỳ thi lịch sử và cố gắng dự đoán các tiêu chí thất bại / vượt qua; bạn chỉ cần bao gồm tất cả các trường dữ liệu có sẵn dưới dạng các tính năng và bảng cũng có ngày sinh nhật của sinh viên. Bây giờ, có thể có một mối tương quan hợp lệ trong dữ liệu đào tạo mà sinh viên sinh vào ngày 12 tháng 2 hầu như luôn luôn vượt qua và sinh viên sinh vào ngày 13 tháng 2 hầu như luôn thất bại ... nhưng vì không có mối quan hệ nhân quả, nên không được loại trừ.

Trong cuộc sống thực, nó tinh tế hơn một chút, nhưng nó giúp phân biệt các mối tương quan phù hợp với dữ liệu của bạn với các tín hiệu hợp lệ cần được học ở dạng; và các mối tương quan đơn giản là các mẫu gây ra bởi nhiễu ngẫu nhiên trong tập huấn luyện của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.