Các ví dụ tốt để hiển thị cho sinh viên đại học là gì?


9

Tôi sẽ dạy số liệu thống kê như một trợ lý giảng dạy cho nửa sau của học kỳ này cho các sinh viên đại học theo định hướng CS. Hầu hết các sinh viên tham gia lớp học không có động lực để học môn học và chỉ lấy nó cho các yêu cầu chính. Tôi muốn làm cho môn học trở nên thú vị và hữu ích, không chỉ là một lớp học mà họ học để đạt B + để vượt qua.

Là một sinh viên tiến sĩ toán học thuần túy, tôi biết rất ít về khía cạnh ứng dụng thực tế. Tôi muốn yêu cầu một số ứng dụng thực tế của thống kê đại học. Những ví dụ tôi đang tìm kiếm là những ví dụ (về tinh thần) như:

1) Hiển thị định lý giới hạn trung tâm rất hữu ích cho một số dữ liệu mẫu lớn nhất định.

2) Cung cấp một ví dụ ngược lại rằng định lý giới hạn trung tâm không được áp dụng (giả sử, các định lý sau phân phối Cauchy).

3) Hiển thị cách kiểm tra giả thuyết hoạt động trong các ví dụ thực tế nổi tiếng bằng cách sử dụng Z-test, t-test hoặc một cái gì đó.

4) Cho thấy giả thuyết ban đầu quá mức hoặc sai có thể cho kết quả sai.

5) Hiển thị cách giá trị p và khoảng tin cậy hoạt động trong các trường hợp thực tế (nổi tiếng) và khi chúng không hoạt động tốt.

6) Tương tự lỗi loại I, loại II, công suất thống kê, mức độ từ chối , v.v.α

Vấn đề của tôi là trong khi tôi có nhiều ví dụ về mặt xác suất (tung đồng xu, tung xúc xắc, hủy hoại cờ bạc, martingales, đi bộ ngẫu nhiên, nghịch lý ba tù nhân, vấn đề hội trường, phương pháp xác suất trong thiết kế thuật toán, v.v.), tôi không biết nhiều ví dụ kinh điển về phía thống kê. Ý tôi là những ví dụ nghiêm túc, thú vị có một số giá trị sư phạm, và nó không được tạo ra một cách giả tạo mà dường như rất tách rời khỏi cuộc sống thực. Tôi không muốn tạo cho sinh viên ấn tượng sai lầm rằng Z-test và t-test là tất cả. Nhưng vì nền tảng toán học thuần túy của tôi, tôi không biết đủ các ví dụ để làm cho lớp học thú vị và hữu ích với họ. Vì vậy, tôi đang tìm kiếm một số trợ giúp.

Cấp độ học sinh của tôi là khoảng tính toán I và tính toán II. Họ thậm chí không thể hiển thị phương sai của chuẩn thông thường là 1 theo định nghĩa vì họ không biết cách đánh giá hạt nhân Gaussian. Vì vậy, bất cứ điều gì hơi lý thuyết hoặc tính toán thực hành (như phân phối siêu bội, luật arcsin trong bước đi ngẫu nhiên 1D) sẽ không hoạt động. Tôi muốn đưa ra một số ví dụ mà họ có thể hiểu không chỉ là "như thế nào", mà còn là "tại sao". Nếu không, tôi không chắc chắn nếu tôi sẽ chứng minh những gì tôi nói bằng cách đe dọa.


2
Vì điều này có vẻ hơi rộng và không tập trung lắm "một số ứng dụng thực tế của thống kê đại học" không đặc biệt phù hợp với định dạng QA. Tốt nhất đó là một câu hỏi 'danh sách lớn'. Nếu (3) một mình có thể quá rộng và không tập trung, nhưng có thể là một người đi đường với một chút trách nhiệm và (4) có thể đứng một mình đủ tốt với một chút tập trung hơn. (1) không thể thành công trong mọi trường hợp, vì định lý giới hạn trung tâm thực sự không cho chúng ta biết gì về những gì xảy ra ở hoặc hoặc . Đây không phải là kết quả mẫu hữu hạn. n=100n=1000n=1010
Glen_b -Reinstate Monica

3
Định lý Berry-Esseen (mà tôi mong bạn không dạy ở cấp độ đó) có thể được sử dụng với các mẫu hữu hạn. Tất nhiên, các phương tiện mẫu của các bản phân phối cụ thể ngày càng trở nên bình thường hơn khi kích thước mẫu tăng, nhưng chúng ta thực sự không thể nói "đó là định lý giới hạn trung tâm", vì CLT không thực sự nói gì về điều đó. Ngoài ra, để hiển thị mọi thứ ngày càng gần với phân phối bình thường, bạn cần một chuỗi các cỡ mẫu. Trong thu thập dữ liệu trong thế giới thực, chỉ phổ biến trong dữ liệu được thu thập theo thời gian (vì vậy nếu bạn giả sử iid, bạn có thể gặp một số khó khăn).
Glen_b -Reinstate Monica

2
Có một dữ liệu thực (từ một thử nghiệm - nếu một dữ liệu nhân tạo) được thiết lập - 40000 lần tung đồng xu - được liên kết từ đây
Glen_b -Reinstate Monica

1
Bạn có thể chỉ cho họ điều gì đó về cách mẫu có nghĩa là ứng xử trong các tình huống cụ thể với việc tăng kích thước mẫu - điều đó khá hữu ích; nó chỉ không chính xác hoàn toàn để gán nó cho CLT. Dữ liệu tung đồng xu có thể hữu ích cho việc đó (như có thể dữ liệu họ tự tạo theo cách tương tự). Bạn có thể muốn đọc thông tin tại liên kết trước khi bạn nhận được dữ liệu, bởi vì có một tính năng quan trọng của dữ liệu (cũng là động lực để thu thập thông tin ở vị trí đầu tiên).
Glen_b -Reinstate Monica

1
Ví dụ về hầu hết mọi thứ bạn liệt kê được cung cấp trong các văn bản thống kê giới thiệu tốt, chẳng hạn như Freedman, Pisani và Purves . (Tôi đã liên kết với Phiên bản thứ ba, mà bạn có thể dễ dàng tìm thấy được sử dụng với giá dưới 10 đô la Mỹ. Mọi phiên bản đều hoạt động tốt; phiên bản mới nhất có thể có nhiều ví dụ cập nhật hơn.)
whuber

Câu trả lời:


1

Một cách tốt có thể là cài đặt R ( http://www.r-project.org/ ) và sử dụng các ví dụ của nó để giảng dạy. Bạn có thể truy cập trợ giúp trong R bằng các lệnh "? T.test", v.v ... Cuối mỗi tệp trợ giúp là các ví dụ. Ví dụ: đối với t.test:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

nhập mô tả hình ảnh ở đây


1

Tôi đề nghị áp dụng định lý giới hạn trung tâm để xác định trước kích thước mẫu và tìm câu trả lời cho các câu hỏi như "tôi đã gửi đủ câu hỏi chưa" v.v.

http://web.as.uky.edu/statistic/users/pbreheny/580-F10/notes/9.pdf cung cấp một ví dụ thực tế tốt về cách áp dụng định lý giới hạn trung tâm. Một chiến lược giáo khoa có thể là:

Một lý thuyết

* làm rõ sự khác biệt giữa phân phối lấy mẫu và phân phối ước tính, ví dụ như phân phối cán phẳng "phẳng" so với phân phối trung bình của súc sắc N (sử dụng R hoặc để học sinh tự chơi với bản vẽ Excel phân phối giá trị so với phân phối phương tiện)

* hiển thị phép tính phần trăm dựa trên công thức để phân phối giá trị trung bình (khi bạn đi sâu vào toán học, bạn có thể muốn rút ra công thức) - điểm này tương ứng với các slide 10-17 trong phần trình bày được liên kết ở trên

và sau đó (như trong slide 20 từ bản trình bày được liên kết ở trên):

B) ứng dụng

* chỉ ra cách định lý giới hạn trung tâm giúp xác định kích thước mẫu cho độ chính xác mong muốn trong ước tính giá trị trung bình

Ứng dụng B) này là những gì theo kinh nghiệm của tôi, những người không theo thống kê mong đợi từ một nhà thống kê - trả lời các câu hỏi thuộc loại "tôi có đủ dữ liệu không?"


1

Vì bạn đang dạy sinh viên CS, một ứng dụng hay của Định lý giới hạn trung tâm có thể là ước tính giá trị trung bình từ một bộ dữ liệu lớn (ví dụ> 100 triệu bản ghi). Có thể chỉ ra rằng không cần thiết phải tính giá trị trung bình của toàn bộ tập dữ liệu, mà thay vào đó là lấy mẫu từ tập dữ liệu và sử dụng giá trị trung bình mẫu để ước tính giá trị trung bình từ toàn bộ tập dữ liệu / cơ sở dữ liệu. Bạn có thể tiến thêm một bước này nếu bạn muốn và mô phỏng một bộ dữ liệu có các giá trị khác nhau đáng kể cho các nhóm con khác nhau. Sau đó, bạn có thể cho học sinh khám phá lấy mẫu phân tầng để có được ước tính chính xác hơn.

Một lần nữa, vì có sinh viên CS, bạn có thể muốn thực hiện một số bootstrapping để có được khoảng tin cậy hoặc để ước tính phương sai của các số liệu thống kê phức tạp hơn. Đây là một giao điểm tốt đẹp của thống kê và máy tính vì, theo tôi và có thể dẫn đến sự quan tâm lớn hơn trong vấn đề này.


1

Tôi bắt đầu bằng cách gõ một bình luận nhưng nó trở nên quá dài ...

Hãy nhớ rằng họ là sinh viên CS. Bạn sẽ không làm hài lòng họ theo cách bạn làm hài lòng các nhà toán học (với algebras) hoặc nhà sinh học, bác sĩ (với dữ liệu sinh học hoặc y tế, và các công thức cổ điển để kiểm tra các giả thuyết null cũ). Nếu bạn có đủ tự do để quyết định định hướng của bài giảng, nếu vấn đề là họ học các khái niệm cơ bản, lời khuyên của tôi là hãy thay đổi định hướng triệt để. Tất nhiên, nếu các giáo viên khác muốn họ có thể thực hiện một số nhiệm vụ được xác định trước, bạn sẽ hơi bế tắc.σ

Vì vậy, theo tôi, họ sẽ thích nó nếu bạn trình bày suy luận theo quan điểm "học tập" và nếu bạn trình bày các bài kiểm tra theo quan điểm "lý thuyết quyết định" hoặc "phân loại" - nói tóm lại, họ được cho là để thích các thuật toán. Để thuật toán Grok!

Ngoài ra, hãy cố gắng tìm các bộ dữ liệu liên quan đến CS; ví dụ: thời lượng kết nối và số lượng yêu cầu trên một đơn vị thời gian đến máy chủ html có thể giúp minh họa nhiều khái niệm.

Họ sẽ thích học các kỹ thuật mô phỏng. Máy phát điện Lehmer rất dễ thực hiện. Chỉ cho họ cách mô phỏng các bản phân phối khác bằng cách đảo ngược cdf. Nếu bạn thích điều này, hãy cho họ xem thuật toán Ziggurat của Marsaglia. Ồ, và máy phát điện MWC256 của Marsaglia là một viên ngọc nhỏ. Các thử nghiệm Diehard của Marsaglia (các thử nghiệm về tính công bằng của các máy phát đồng đều) có thể giúp minh họa nhiều khái niệm về xác suất và thống kê. Bạn thậm chí có thể chọn trình bày lý thuyết xác suất dựa trên các luồng "nhân đôi" (độc lập), ý tôi là thực tế "- điều này hơi táo tợn, nhưng nó có thể rất lớn.

Ngoài ra, hãy nhớ rằng thứ hạng trang được dựa trên chuỗi Markov. Đây không phải là vấn đề dễ dàng nhưng theo bài thuyết trình từ Arthur Engel (Tôi nghĩ rằng tài liệu tham khảo là bàn tính xác suất - nếu bạn đọc tiếng Pháp, cuốn sách này hoàn toàn phải đọc ), bạn có thể dễ dàng trình bày một vài ví dụ đồ chơi mà họ sẽ thích . Tôi nghĩ rằng CS sinh viên khoa học sẽ thích chuỗi rời rạc Markov nhiều hơn -tests, ngay cả khi có vẻ như nguyên liệu khó khăn hơn (trình bày Engel làm cho nó rất dễ dàng).t

Nếu bạn thành thạo chủ đề của mình, đừng ngần ngại là bản gốc. Các bài giảng "cổ điển" là ổn khi bạn dạy một cái gì đó mà bạn không hoàn toàn quen thuộc. Chúc may mắn, và nếu bạn phát hành một số ghi chú bài giảng xin vui lòng cho tôi biết!


1

Bạn nói đây là sinh viên khoa học máy tính. Sở thích của họ là gì, đây có phải chủ yếu là khoa học máy tính lý thuyết, hay sinh viên chủ yếu thúc đẩy bằng cách chuẩn bị cho công việc? Bạn cũng có thể cho chúng tôi biết mô tả khóa học là gì!

Nhưng, bất kể câu trả lời của bạn cho những câu hỏi đó là gì, bạn có thể bắt đầu với một số thống kê thực tế xảy ra trong bối cảnh tin học, chẳng hạn như (ví dụ) thiết kế web. Trang web này thỉnh thoảng có câu hỏi về điều này, chẳng hạn như tỷ lệ chuyển đổi theo thời gian hoặc /stats/96853/compared-sales-person-conversion-rates hoặc AB Kiểm tra các yếu tố khác bên cạnh tỷ lệ chuyển đổi .

Có rất nhiều câu hỏi ở đây như thế này, dường như từ những người liên quan đến thiết kế web. Tình hình là bạn có một số trang web (giả sử, bạn bán một cái gì đó). "Tỷ lệ chuyển đổi", theo tôi hiểu, là tỷ lệ khách truy cập tiếp tục thực hiện một số nhiệm vụ ưu tiên (chẳng hạn như mua hoặc một số mục tiêu khác mà bạn có cho khách truy cập của mình). Sau đó, bạn, với tư cách là nhà thiết kế web, hãy hỏi xem bố cục trang của bạn có ảnh hưởng đến hành vi này không. Vì vậy, bạn lập trình hai (hoặc nhiều) phiên bản của trang web, chọn ngẫu nhiên phiên bản nào để trình bày cho một số khách hàng mới và có thể so sánh tỷ lệ chuyển đổi và cuối cùng chọn thực hiện phiên bản có tỷ lệ chuyển đổi cao nhất.

Đây là một vấn đề về thiết kế của một thử nghiệm so sánh và bạn cần các phương pháp thống kê để so sánh tỷ lệ phần trăm, hoặc có thể trực tiếp bảng dự phòng của các thiết kế so với chuyển đổi / không chuyển đổi. Ví dụ đó có thể cho họ thấy rằng số liệu thống kê thực sự có thể hữu ích cho họ trong một số công việc phát triển web! Và, từ khía cạnh thống kê, nó mở ra cho rất nhiều câu hỏi thú vị về tính hợp lệ của các giả định ...

Để kết nối với những gì bạn nói về định lý giới hạn trung tâm, bạn có thể hỏi bạn cần bao nhiêu quan sát trước khi bạn có thể coi tỷ lệ phần trăm như phân phối bình thường và cho họ nghiên cứu bằng cách sử dụng mô phỏng ...

Bạn có thể tìm kiếm trang web này cho các câu hỏi thống kê khác được đặt ra bởi các loại lập trình viên ...


-2

Tôi đề nghị rằng, trước bất kỳ ví dụ hay nào, tốt hơn là tập trung vào các định nghĩa rõ ràng. Theo kinh nghiệm của tôi, xác suất và thống kê đại học là một khóa học chứa đầy những từ mà không ai trong số các sinh viên hiểu được. Như một thử nghiệm, hãy hỏi những sinh viên vừa hoàn thành khóa học xác suất "biến ngẫu nhiên" là gì. Họ có thể cho bạn ví dụ, nhưng tôi nghi ngờ rằng hầu hết sẽ cho bạn một định nghĩa rõ ràng về nó. Chính xác thì "xác suất" là gì? "Phân phối" là gì? Thuật ngữ trong thống kê thậm chí còn khó hiểu hơn. Hầu hết các cuốn sách đại học tôi thấy làm một công việc rất xấu là giải thích điều này. Các ví dụ và tính toán là tốt, nhưng không có định nghĩa rõ ràng, nó không hữu ích như người ta nghĩ. Phát biểu từ kinh nghiệm của tôi, đây chính xác là lý do tại sao tôi ghét lý thuyết xác suất khi còn là sinh viên. Mặc dù lợi ích của tôi đã bị loại bỏ khỏi xác suất như người ta có thể có, bây giờ tôi đánh giá cao chủ đề này, vì cuối cùng tôi đã tự dạy mình tất cả các thuật ngữ thực sự có nghĩa là gì. Tôi xin lỗi rằng đây không chính xác là những gì bạn yêu cầu, nhưng cho rằng bạn đang dạy một lớp như vậy tôi nghĩ rằng đây sẽ là lời khuyên hữu ích.


1
Tôi không chắc chắn rằng tôi đồng ý - ít nhất là không trong hầu hết / tất cả các trường hợp. Đối với một số người, sự hiểu biết về khái niệm có thể, như bạn đề xuất, đi trước ứng dụng cho các ví dụ cụ thể, nhưng đối với các sinh viên khác, sự hiểu biết khái niệm (đặc biệt đối với các chủ đề phức tạp) có thể chỉ xuất hiện thông qua việc sử dụng một ví dụ đặc biệt sáng tỏ.
jsakaluk 28/03/2015

Khi còn là sinh viên, tôi thường không gặp nhiều khó khăn khi đọc toán tốt nghiệp và giải quyết các vấn đề ở đó. Tôi biết những gì tôi đang làm và những gì tôi phải làm. Lý thuyết xác suất, hay thống kê, "dễ" hơn so với các môn tôi đang học. Nhưng tôi không biết mình đang làm gì hay tại sao phải làm. Các sách giáo khoa là hoàn toàn không có ích cho tôi. Sau khi đọc chúng tôi không thực sự hiểu từ vựng. Chắc chắn, tôi có thể thực hiện các tính toán nhưng vào cuối ngày, tôi chỉ thấy nó là một chủ đề trống rỗng. Nếu tôi có sự nhầm lẫn này, al fortiorti, những học sinh không thiên về toán học cũng vậy.
Nicolas Bourbaki

5
Tôi tự hỏi nếu điều này có thể là lời khuyên hữu ích hơn cho việc giảng dạy có lẽ cho các sinh viên rất thông minh về bằng cấp toán học thuần túy hơn là giảng dạy các số liệu thống kê áp dụng cho các chuyên ngành CS.
Cá bạc

@Silverfish Tôi không chắc lời khuyên của tôi chỉ áp dụng cho sinh viên toán học. Người ta có thể phát triển ngôn ngữ của lý thuyết đo lường và chỉ ra cách xác suất được thể hiện trong đó, mà không đi sâu vào lý thuyết. Điều này thực sự không khác bất kỳ tính toán cơ bản. Hầu hết các cuốn sách ít nhất xác định các điều khoản của họ nhưng họ không đi vào lý thuyết về chúng. Nếu các sinh viên hiểu rằng thống kê là vấn đề nghịch đảo của xác suất, và, chẳng hạn, chúng tôi "quan tâm" đến giá trị trung bình vì nó xấp xỉ giá trị mong đợi của một biến ngẫu nhiên, thì họ có thể đánh giá cao nó hơn nhiều.
Nicolas Bourbaki
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.