Những thuật toán học có giám sát có sẵn để phù hợp?


7

Tôi đang làm việc cho một tổ chức phi lợi nhuận, nơi chúng tôi cố gắng giúp các ứng viên đại học tiềm năng bằng cách kết hợp họ với các cựu sinh viên muốn chia sẻ kinh nghiệm / sự khôn ngoan của họ và hiện tại, điều đó đang diễn ra một cách thủ công. Vì vậy, tôi sẽ có hai bảng, một với sinh viên và một với cựu sinh viên (họ có thể có một số tính năng chung, nhưng không nhất thiết là tất cả chúng)

NameGenderHeightKathyF165TommyM182RuthF163......... NameGenderWeightMiss LucyF65Miss GeraldineF70Miss EmilyF60.........

Hiện tại, chúng tôi đang kết hợp thủ công các thành viên của bảng 1 với những người trong bảng 2. Chúng tôi cũng sẽ thu thập thông tin sau trận đấu ("Đây có phải là một trận đấu hay không? Vui lòng đánh giá theo thang điểm từ 1 đến 10"). Vì vậy, nó sẽ trông giống như thế này:

Người số 1Người số 2Trận đấu?RuthCô LucyNTommyCô EmilyYKathyCô GeraldineNRuthCô EmilyN.........

Tôi muốn sử dụng một thuật toán học tập cho quá trình này. Tôi biết một chút về học máy, nhưng tôi vẫn còn rất nhiều người mới (vì vậy đó cũng là cơ hội để tôi tìm hiểu thêm về nó), nhưng tôi không thể nào biết được cách bạn sẽ thực hiện kiểu học có giám sát này khi bạn có hai bộ cả hai đều có nhiều tính năng. Những loại thuật toán phù hợp có sẵn để làm điều này? (Ngoài ra, tôi thích làm việc trong R)

(Nhân tiện, tôi sẽ rất biết ơn nếu bạn có thể chỉ cho tôi đi đúng hướng và tôi sẽ cố gắng đọc về nó và tự giải quyết nó. Ngoài ra, tôi biết rằng thật khó chịu khi thấy những câu hỏi đã được trả lời - nếu đây là trường hợp, xin vui lòng cho tôi biết mà không trả lời câu hỏi. Tôi đã cố gắng tìm kiếm các chuỗi khác nhau trên Google và StackExchange, nhưng chủ yếu tìm thấy các slide bài giảng về lý thuyết đồ thị dường như không những gì tôi đang tìm kiếm (mặc dù có thể chỉ vì nó hơi quá đầu tôi). Cảm ơn rất nhiều!)


1
Bạn có đang băn khoăn về các tính năng của mình hoặc một cái gì đó, bởi vì sự tỉnh táo của việc kết hợp các sinh viên với người cố vấn dựa trên tên, giới tính, chiều caocân nặng của họ có khả năng thành công thấp và có thể là bất hợp pháp. Mọi người thường cố gắng ẩn danh nhiều hơn khi đặt câu hỏi bằng cách thay đổi hoặc đơn giản hóa vấn đề, nhưng việc trả lời câu hỏi thực tế dễ dàng hơn nhiều so với chuyển đổi câu hỏi tức là nếu bạn không có câu trả lời thì có thể bạn không biết làm thế nào để biến đổi nó một cách chính xác.
AN6U5

Nhìn vào thuật toán kết hợp Gale và Shapley từ tài liệu và xem liệu bạn có thể áp dụng điều đó ở đây không.
Deepak Pahwa

Câu trả lời:


2

Bạn có thể cố gắng đóng khung vấn đề này như một tình huống hệ thống đề xuất. Nơi bạn có người dùng của mình (sinh viên tương lai) và các mặt hàng (cựu sinh viên) và muốn giới thiệu cho người dùng một mặt hàng.

Nó không phù hợp hoàn hảo vì bạn chỉ muốn một mục cho mỗi người dùng và bạn không có dữ liệu phù hợp trước đó cho mỗi người dùng. Tuy nhiên bạn có thể điều tra ý tưởng này một chút nữa. Tôi đang áp dụng các kỹ thuật này cho vấn đề tuyển dụng, tôi đang kết hợp người dùng với lời mời làm việc và tôi đang có một số thành công.

Hãy thử đọc một chút về các hệ thống đề xuất, để bắt đầu, tôi đề xuất chương 9 về khai thác các tập dữ liệu lớn, nó thực sự mang tính giới thiệu, nhưng cung cấp một cái nhìn tổng quan tốt về các kỹ thuật phổ biến nhất.


+1 để cố gắng coi đây là một hệ thống được đề xuất. Tôi sẽ nói thêm rằng bạn có thể cần phải thực hiện một số loại kỹ thuật tính năng và trích xuất tính năng để thêm tín hiệu cho vấn đề của bạn.
AN6U5

0

Tôi sẽ tách vấn đề thành hai:

  1. Dự đoán liệu một cặp nhất định sẽ là một trận đấu tốt.
  2. Phù hợp với các cặp.

Đầu tiên, hãy thảo luận về vấn đề dự đoán. Tôi nghĩ bạn nên coi việc kết hợp các cặp là một vấn đề học tập có giám sát và không phải là một vấn đề khuyến nghị. Như João Almeida đã viết, sinh viên mới sẽ không có bất kỳ mối quan hệ nào trước đây với cựu sinh viên.
Ngay cả các cựu sinh viên sẽ có rất ít mối quan hệ trước đó. Tôi sẽ có thêm cho mỗi cựu sinh viên một số tính năng dựa trên tổng hợp (ví dụ: số lượng các mối quan hệ trong quá khứ, tỷ lệ của các trận đấu tốt trong quá khứ).

Sau đó, bạn nên tạo bộ dữ liệu của các cặp trong quá khứ, sử dụng 'Kết hợp?' như khái niệm. Không rõ liệu bạn sẽ có thể học một quy tắc kết hợp tốt hay không, ngay cả khi nó tồn tại. Tôi đoán rằng dữ liệu của bạn là khá nhỏ. Nếu xác suất của trận đấu thấp, bạn có thể gặp vấn đề mất cân bằng. Như AN6U5 đã nhận xét, chiều cao và cân nặng là những đặc điểm khá lạ để phù hợp với sinh viên với cựu sinh viên. Tính toán các mối quan hệ giữa các tính năng và khái niệm (ví dụ thông tin lẫn nhau , tương quan Pearson ) để xem bạn có các tính năng hữu ích hay không.

Đối với câu hỏi thứ hai, ngay cả khi bạn có thể dự đoán tốt nếu một cặp sẽ là một kết hợp tốt, bạn vẫn có một vấn đề thuật toán về việc sử dụng cặp nào. Hãy xem xét một "cựu sinh viên" sẽ phù hợp với bất kỳ sinh viên nào. Bạn sẽ không muốn so sánh nó với một "siêu sinh viên" nhưng với một sinh viên rằng sẽ khó có thể sánh được với các cựu sinh viên khác. May mắn thay, có các thuật toán phù hợp mà bạn có thể sử dụng. Xây dựng một biểu đồ với các sinh viên và cựu sinh viên như các nút. Tạo một cạnh nếu bạn dự đoán một trận đấu tốt và chạy một thuật toán phù hợp với nó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.