Dữ liệu định hướng dữ liệu / câu hỏi nghiên cứu cho luận án ThS Thống kê


11

Tôi muốn khám phá 'khoa học dữ liệu'. Thuật ngữ này có vẻ hơi mơ hồ đối với tôi, nhưng tôi hy vọng nó sẽ yêu cầu:

  1. học máy (thay vì thống kê truyền thống);
  2. một bộ dữ liệu đủ lớn để bạn phải chạy phân tích trên các cụm.

Một số bộ dữ liệu và vấn đề tốt, có thể truy cập được bởi một nhà thống kê với một số nền tảng lập trình, mà tôi có thể sử dụng để khám phá lĩnh vực khoa học dữ liệu là gì?

Để giữ điều này càng hẹp càng tốt, lý tưởng nhất là tôi muốn liên kết đến các bộ dữ liệu được sử dụng tốt và các vấn đề ví dụ.

Câu trả lời:



5

Các Sunlight Foundation là một tổ chức tập trung vào việc mở ra và khuyến khích phân tích phi đảng phái của dữ liệu của chính phủ.

Có rất nhiều phân tích ngoài tự nhiên có thể được sử dụng để so sánh, và một loạt các chủ đề.

Họ cung cấp các công cụapis để truy cập dữ liệu và đã giúp thúc đẩy cung cấp dữ liệu ở những nơi như data.gov .

Một dự án thú vị là Influence Explorer . Bạn có thể lấy dữ liệu nguồn tại đây cũng như truy cập dữ liệu thời gian thực.

Bạn cũng có thể muốn xem một trong những câu hỏi phổ biến hơn của chúng tôi:

Bộ dữ liệu có sẵn công khai .


5

Là thạc sĩ của bạn về Khoa học Máy tính? Số liệu thống kê?

"Khoa học dữ liệu" sẽ là trung tâm của luận án của bạn? Hoặc một chủ đề phụ?

Tôi sẽ giả định về Thống kê của bạn và rằng bạn muốn tập trung luận án của mình vào một vấn đề 'khoa học dữ liệu'. Nếu vậy, thì tôi sẽ đi ngược lại và đề nghị rằng bạn không nên bắt đầu với một tập dữ liệu hoặc phương thức ML. Thay vào đó, bạn nên tìm kiếm một vấn đề nghiên cứu thú vị chưa được hiểu rõ hoặc phương pháp ML chưa được chứng minh là thành công hoặc nơi có nhiều phương pháp ML cạnh tranh nhưng không có phương pháp nào tốt hơn phương pháp khác.

Xem xét nguồn dữ liệu này: Bộ sưu tập dữ liệu mạng lớn Stanford . Mặc dù bạn có thể chọn một trong các tập dữ liệu này, tạo một báo cáo vấn đề và sau đó chạy một số danh sách các phương thức ML, nhưng cách tiếp cận đó thực sự không cho bạn biết nhiều về khoa học dữ liệu là gì, và theo tôi thì không dẫn đến một luận án thạc sĩ rất tốt.

Thay vào đó, bạn có thể làm điều này: tìm kiếm tất cả các tài liệu nghiên cứu sử dụng ML trên một số danh mục cụ thể - ví dụ: Mạng cộng tác (còn gọi là đồng tác giả). Khi bạn đọc mỗi giấy, cố gắng tìm ra những gì họ đã thể hiện với mỗi phương pháp ML và những gì họ đã không thể địa chỉ. Đặc biệt là tìm kiếm gợi ý của họ cho "nghiên cứu trong tương lai".

Có thể tất cả họ đều sử dụng cùng một phương thức, nhưng chưa bao giờ thử các phương thức ML cạnh tranh. Hoặc có thể họ không xác nhận đầy đủ kết quả của họ, hoặc có thể có bộ dữ liệu nhỏ, hoặc có thể câu hỏi nghiên cứu và giả thuyết của họ là đơn giản hoặc hạn chế.

Quan trọng nhất: cố gắng tìm ra nơi nghiên cứu này. Tại sao họ thậm chí bận tâm để làm điều này? Điều gì là quan trọng về nó? Ở đâu và tại sao họ gặp khó khăn?


Đây là một ý tưởng khá tốt. Các Thạc sĩ là trong Thống kê.
dùng3279453
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.