Là thạc sĩ của bạn về Khoa học Máy tính? Số liệu thống kê?
"Khoa học dữ liệu" sẽ là trung tâm của luận án của bạn? Hoặc một chủ đề phụ?
Tôi sẽ giả định về Thống kê của bạn và rằng bạn muốn tập trung luận án của mình vào một vấn đề 'khoa học dữ liệu'. Nếu vậy, thì tôi sẽ đi ngược lại và đề nghị rằng bạn không nên bắt đầu với một tập dữ liệu hoặc phương thức ML. Thay vào đó, bạn nên tìm kiếm một vấn đề nghiên cứu thú vị chưa được hiểu rõ hoặc phương pháp ML chưa được chứng minh là thành công hoặc nơi có nhiều phương pháp ML cạnh tranh nhưng không có phương pháp nào tốt hơn phương pháp khác.
Xem xét nguồn dữ liệu này: Bộ sưu tập dữ liệu mạng lớn Stanford . Mặc dù bạn có thể chọn một trong các tập dữ liệu này, tạo một báo cáo vấn đề và sau đó chạy một số danh sách các phương thức ML, nhưng cách tiếp cận đó thực sự không cho bạn biết nhiều về khoa học dữ liệu là gì, và theo tôi thì không dẫn đến một luận án thạc sĩ rất tốt.
Thay vào đó, bạn có thể làm điều này: tìm kiếm tất cả các tài liệu nghiên cứu sử dụng ML trên một số danh mục cụ thể - ví dụ: Mạng cộng tác (còn gọi là đồng tác giả). Khi bạn đọc mỗi giấy, cố gắng tìm ra những gì họ đã thể hiện với mỗi phương pháp ML và những gì họ đã không thể địa chỉ. Đặc biệt là tìm kiếm gợi ý của họ cho "nghiên cứu trong tương lai".
Có thể tất cả họ đều sử dụng cùng một phương thức, nhưng chưa bao giờ thử các phương thức ML cạnh tranh. Hoặc có thể họ không xác nhận đầy đủ kết quả của họ, hoặc có thể có bộ dữ liệu nhỏ, hoặc có thể câu hỏi nghiên cứu và giả thuyết của họ là đơn giản hoặc hạn chế.
Quan trọng nhất: cố gắng tìm ra nơi nghiên cứu này. Tại sao họ thậm chí bận tâm để làm điều này? Điều gì là quan trọng về nó? Ở đâu và tại sao họ gặp khó khăn?