Hãy xem xét những điều sau đây từ trang 254-256 của Sauro, J., & Lewis, JR (2016). Định lượng trải nghiệm người dùng: Thống kê thực tế cho nghiên cứu người dùng, 2nd Ed. Cambridge, MA: Morgan-Kaufmann (bạn có thể xem bên trong tại https://www.amazon.com/Quantifying-User-Experience-Second-Statistic/dp/0128023082/ ).
BẠN CÓ CẦN KIỂM TRA TẠI 30 NGƯỜI SỬ DỤNG MỚI NHẤT?
TRÊN MỘT TAY
Có lẽ hầu hết chúng ta đã tham gia một lớp thống kê giới thiệu (hoặc biết ai đó đã tham gia một lớp như vậy) đã nghe quy tắc ngón tay cái để ước tính hoặc so sánh các phương tiện, kích thước mẫu của bạn phải ít nhất là 30. Theo định lý giới hạn trung tâm, khi kích thước mẫu tăng, phân phối của giá trị trung bình ngày càng trở nên bình thường, bất kể tính quy phạm của phân phối cơ bản. Một số nghiên cứu mô phỏng đã chỉ ra rằng đối với nhiều loại phân phối (nhưng không phải tất cả các bộ phận xem Bradley, 1978), sự phân phối của giá trị trung bình trở nên gần như bình thường khi n = 30.
Một cân nhắc khác là việc sử dụng điểm z đơn giản hơn một chút so với điểm t vì điểm z không yêu cầu sử dụng bậc tự do. Như được hiển thị trong Bảng 9.1 và Hình 9.2, tại thời điểm bạn có khoảng 30 độ tự do, giá trị của t khá gần với giá trị của z. Do đó, có thể có cảm giác rằng bạn không phải đối phó với các mẫu nhỏ yêu cầu thống kê mẫu nhỏ (Cohen, 1990). ...
MẶT KHÁC
Khi chi phí của một mẫu đắt đỏ, vì thông thường trong nhiều loại nghiên cứu người dùng (ví dụ: kiểm tra khả năng sử dụng được kiểm duyệt), điều quan trọng là phải ước tính kích thước mẫu cần thiết càng chính xác càng tốt, với sự hiểu biết rằng đó là ước tính. Khả năng 30 chính xác là mẫu phù hợp cho một tập hợp hoàn cảnh nhất định là rất thấp. Như đã trình bày trong các chương của chúng tôi về ước lượng kích thước mẫu, một cách tiếp cận phù hợp hơn là sử dụng các công thức để tính toán các mức ý nghĩa của kiểm tra thống kê và sử dụng đại số để giải cho n, chuyển đổi chúng thành các công thức ước lượng kích thước mẫu. Những công thức đó sau đó cung cấp hướng dẫn cụ thể về những gì bạn phải biết hoặc ước tính cho một tình huống nhất định để ước tính kích thước mẫu được yêu cầu.
Ý tưởng rằng ngay cả với phân phối t (trái ngược với phân phối z), bạn cần phải có cỡ mẫu ít nhất là 30 không phù hợp với lịch sử phát triển của phân phối. Năm 1899, William S. Gossett, một sinh viên tốt nghiệp gần đây của New College ở Oxford với bằng hóa học và toán học, trở thành một trong những nhà khoa học đầu tiên tham gia nhà máy bia Guinness. So với những người khổng lồ trong thời đại của mình, ông đã xuất bản rất ít, nhưng đóng góp của ông có tầm quan trọng quan trọng. Bản chất của quá trình sản xuất bia, với sự thay đổi về nhiệt độ và thành phần của nó, có nghĩa là không thể lấy các mẫu lớn trong một thời gian dài (Cowles, 1989, p. 108 Than109).
Điều này có nghĩa là Gossett không thể sử dụng điểm z trong công việc của mình, họ chỉ không làm việc tốt với các mẫu nhỏ. Sau khi phân tích sự thiếu hụt của phân phối z cho các thử nghiệm thống kê với các mẫu nhỏ, ông đã tìm ra các điều chỉnh cần thiết như là một chức năng của mức độ tự do để tạo ra các bảng t của mình, được xuất bản dưới bút danh là Student Student do các chính sách của Guinness cấm xuất bản bởi nhân viên (Salsburg, 2001). Trong công việc dẫn đến việc xuất bản các bảng, Gossett đã thực hiện một phiên bản đầu tiên của mô phỏng Monte Carlo (Stigler, 1999). Anh ta đã chuẩn bị 3000 thẻ được dán nhãn với các phép đo vật lý được thực hiện trên bọn tội phạm, xáo trộn chúng, sau đó xử lý chúng thành 750 nhóm có kích thước 4, một cỡ mẫu nhỏ hơn 30.
ĐỀ NGHỊ CỦA CHÚNG TÔI
Cuộc tranh cãi này tương tự như cuộc tranh luận của nhóm năm là đủ so với cuộc tranh luận của tám người không phải là đủ đối số trên phạm vi của Chương 6, nhưng được áp dụng cho nghiên cứu tổng kết chứ không phải nghiên cứu chính thức. Đối với bất kỳ nghiên cứu nào, số lượng người dùng để kiểm tra tùy thuộc vào mục đích thử nghiệm và loại dữ liệu bạn dự định thu thập. Số ma thuật của người Viking số 30 có một số lý do thực nghiệm, nhưng theo chúng tôi, nó rất yếu. Như bạn có thể thấy từ rất nhiều ví dụ trong cuốn sách này có cỡ mẫu không bằng 30 (đôi khi ít hơn, đôi khi nhiều hơn), chúng tôi không giữ nguyên tắc này trong vấn đề rất cao. Như được mô tả trong chương kích thước mẫu của chúng tôi cho nghiên cứu tổng hợp, cỡ mẫu thích hợp cho một nghiên cứu phụ thuộc vào loại phân phối, độ biến thiên dự kiến của dữ liệu, mức độ tin cậy và sức mạnh mong muốn,
Như minh họa trong Hình 9.2, khi sử dụng phân phối t với các mẫu rất nhỏ (ví dụ: với mức độ tự do nhỏ hơn 5), các giá trị rất lớn của t bù cho các cỡ mẫu nhỏ liên quan đến việc kiểm soát các lỗi Loại I ( khẳng định một sự khác biệt là rất quan trọng khi nó thực sự không). Với kích thước mẫu nhỏ như vậy, khoảng tin cậy của bạn sẽ rộng hơn nhiều so với những gì bạn sẽ nhận được với các mẫu lớn hơn. Nhưng một khi bạn đang xử lý hơn 5 độ tự do, có rất ít sự khác biệt tuyệt đối giữa giá trị của z và giá trị của t. Từ quan điểm của cách tiếp cận của t đến z, có rất ít đạt được 10 bậc tự do.
Việc sử dụng phân phối t không phức tạp hơn phân phối z (bạn chỉ cần chắc chắn sử dụng đúng giá trị cho mức độ tự do) và lý do cho sự phát triển của phân phối t là cho phép phân tích các mẫu nhỏ. Đây chỉ là một trong những cách ít rõ ràng hơn mà các học viên khả năng sử dụng được hưởng lợi từ khoa học và thực hành sản xuất bia. Các nhà sử học thống kê coi rộng rãi việc xuất bản bài kiểm tra t Student của Gossett là một sự kiện mang tính bước ngoặt (Box, 1984; Cowles, 1989; Stigler, 1999). Trong một bức thư gửi Ronald A. Fisher (một trong những người cha của thống kê hiện đại) có một bản sao ban đầu của các bảng t, Gossett viết, Hồi Bạn có lẽ là người duy nhất sẽ sử dụng chúng Khăn (Box, 1978). Gossett có rất nhiều điều đúng, nhưng anh ta chắc chắn đã sai.
NGƯỜI GIỚI THIỆU
Hộp, GEP (1984). Tầm quan trọng của thực tiễn trong việc phát triển số liệu thống kê. Kỹ thuật, 26 (1), 1-8.
Hộp, JF (1978). Fisher, cuộc đời của một nhà khoa học. New York, NY: John Wiley.
Bradley, Liên doanh (1978). Mạnh mẽ? Tạp chí tâm lý học thống kê và toán học của Anh, 31, 144-152.
Cohen, J. (1990). Những điều tôi đã học được (cho đến nay). Nhà tâm lý học người Mỹ, 45 (12), 1304-1312.
Cowles, M. (1989). Thống kê trong tâm lý học: Một quan điểm lịch sử. Hillsdale, NJ: Lawrence Erlbaum.
Salsburg, D. (2001). Người phụ nữ nếm trà: Cách thống kê cách mạng khoa học trong thế kỷ XX. New York, NY: WH Freeman.
Stigler, SM (1999). Thống kê trên bảng: Lịch sử của các khái niệm và phương pháp thống kê. Cambridge, MA: Nhà xuất bản Đại học Harvard.