Một khóa học về thiết kế thử nghiệm cho các thợ mỏ dữ liệu


11

Tôi là một nhà khoa học máy tính làm việc trong khai thác dữ liệu. Không có gì bí mật để nói rằng các nhà khoa học máy tính khá kém trong việc thực hiện thiết kế và đánh giá thử nghiệm có hệ thống - việc sử dụng các giá trị p và ước tính độ tin cậy được coi là tiên tiến :).

Những gì tôi muốn biết nếu có các khóa học / tài liệu tốt để dạy các nhà khoa học máy tính về thiết kế thử nghiệm tốt. Để làm cho điều này cụ thể hơn, tôi sẽ thêm thông tin sau:

  • Khóa học nên được nhắm mục tiêu vào các sinh viên tốt nghiệp, những người có thể được giả định là có hiểu biết hợp lý về xác suất, nhưng nền tảng thống kê hạn chế.
  • Khóa học nên tập trung vào thiết kế thử nghiệm trong "cài đặt không tự nhiên không được kiểm soát": nói cách khác, không có sự thật cơ bản nào hoặc cách kiểm soát quá trình thu thập dữ liệu (như với các đối tượng người). Tất nhiên một khóa học tốt sẽ tập trung vào các nguyên tắc cơ bản, nhưng nó nên giải quyết tình huống này theo một cách quan trọng.
  • Một yếu tố tính toán sẽ là một phần thưởng nhưng không bắt buộc. Chúng tôi xử lý rất nhiều dữ liệu, nhưng có thể tự mình tìm ra các vấn đề tính toán nếu cần.

1
Tất cả các điều kiện của thí nghiệm mà bạn mô tả nhắc nhở tôi về A / B-Tests ... sự trùng hợp? :)
steffen

Câu trả lời:


5

[Noah Smith] [1] và [David Smith] [2] đã cung cấp một khóa học trước đây tại JHU với động lực tương tự.

Đề cương:

  • Bài giảng 1: giới thiệu, xem xét thống kê, kiểm tra giả thuyết, lấy mẫu
  • Bài giảng 2: thống kê quan tâm: phương tiện, lượng tử, phương sai
  • Bài giảng 3 Lốc4: thử nghiệm với thời gian chạy và không gian
  • Bài giảng 5: phân tích dữ liệu thăm dò
  • Bài giảng 6: mô hình hóa tham số, hồi quy và phân loại
  • Bài giảng 7: gỡ lỗi thống kê và định hình
  • Bài giảng 8: tóm tắt và ôn tập

Để biết chi tiết, xem Phương pháp nghiên cứu thực nghiệm trong Khoa học máy tính (600.408) http://www.cs.jhu.edu/~nasmith/erm/


4

Tôi có thể gửi cho bạn hai cuốn sách thay vì các khóa học

Cái thứ nhất, như là một ứng dụng cho tin sinh học và cái thứ hai cho bất kỳ môn học nào


1
Đồng thời kiểm tra bài đăng này stats.stackexchange.com/questions/1815/ từ
friveroll

3

Câu hỏi hay. Tôi muốn xem các câu trả lời.

Từ quan điểm thống kê, hai vấn đề cần giải quyết: hầu hết các thống kê và thiết kế thống kê thảo luận về thống kê mẫu nhỏ và hầu hết các phương pháp được sử dụng bởi các kỹ sư không phải là thống kê "hiện đại".

Tôi không có đề xuất ngay lập tức cho vấn đề đầu tiên ngoài việc học tốt trong khai thác / thăm dò dữ liệu và ý nghĩa của sự khác biệt về mặt thống kê khi phải đối mặt với phân tích thống kê dân số (hoặc mẫu lớn).

Tuy nhiên, hai cuốn sách quan tâm để giới thiệu cho sinh viên thống kê sẽ là của Rand Wilcox (một nhà tâm lý học):

Wilcox, RR (2012). Giới thiệu về Ước tính mạnh mẽ và Thử nghiệm giả thuyết, Ed 3. Báo chí học thuật.

Wilcox, RR (2010). Nguyên tắc cơ bản của phương pháp thống kê hiện đại: Cải thiện đáng kể sức mạnh và độ chính xác, Springer, 2nd Ed.


2
Dường như với tôi rằng vấn đề đầu tiên là một vấn đề cần nghiên cứu và có thể chưa có "thực tiễn tốt nhất". Rất có thể là một giới thiệu chắc chắn về thử nghiệm cơ bản và khoan trong vấn đề nhiều giả thuyết có thể là nơi tốt nhất để bắt đầu.
Suresh Venkatasubramanian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.