Tại sao tất cả các bài kiểm tra không được ghi thông qua phân tích mục / lý thuyết phản hồi?

8

Có một lý do thống kê tại sao lý thuyết phân tích / phản ứng mục không được áp dụng rộng rãi hơn? Chẳng hạn, nếu một giáo viên làm bài kiểm tra trắc nghiệm 25 câu hỏi và thấy rằng 10 câu hỏi đã được trả lời đúng bởi mọi người, thì 10 câu hỏi đã được trả lời với tỷ lệ rất thấp (10%) và 5 câu hỏi còn lại được trả lời bởi khoảng 50% số người . Không có ý nghĩa gì khi đánh giá lại điểm số để những câu hỏi khó được cân nhắc nhiều hơn?

Tuy nhiên, trong các bài kiểm tra trong thế giới thực hầu như luôn có tất cả các câu hỏi có trọng số như nhau. Tại sao?

Liên kết dưới đây thảo luận về các chỉ số phân biệt đối xử và các biện pháp khó khăn khác để chọn câu hỏi nào là tốt nhất: http://fcit.usf.edu/assessment/selected/responsec.html

Dường như phương pháp tìm ra chỉ số phân biệt đối xử của các câu hỏi chỉ được sử dụng theo cách nhìn về phía trước (ví dụ: nếu một câu hỏi không phân biệt tốt, hãy ném nó). Tại sao các bài kiểm tra không có trọng số lại cho dân số hiện tại?

teaching psychometrics latent-variable

— d_a_c321
nguồn

7

(Bạn hỏi liệu có lý do thống kê không: Tôi nghi ngờ về điều đó, nhưng tôi đoán về những lý do khác.) Sẽ có tiếng kêu "di chuyển cột gôn"? Học sinh thường muốn biết khi làm bài kiểm tra chỉ mỗi món đồ có giá trị bao nhiêu. Họ có thể có lý khi phàn nàn khi nhìn thấy, ví dụ, một số câu trả lời chăm chỉ của họ không kết thúc nhiều.

Nhiều giáo viên và giáo sư sử dụng các tiêu chí thiếu hệ thống, chủ quan để chấm bài kiểm tra. Nhưng những người sử dụng các hệ thống có thể cảnh giác về việc mở các hệ thống đó trước những chỉ trích cụ thể - điều mà phần lớn họ có thể tránh nếu ẩn đằng sau các cách tiếp cận chủ quan hơn. Điều đó có thể giải thích tại sao phân tích vật phẩm và IRT không được sử dụng rộng rãi hơn chúng.

— rolando2
nguồn

1

+1, tôi hy vọng nhiều giáo viên và giáo sư cũng không quen thuộc với IRT.

— gung - Phục hồi Monica

Chắc chắn rồi! Một lý do phi thống kê khác. Tôi thấy rằng giáo dục giáo viên ở đất nước này là như vậy mà nhiều người dạy nhận được ít hoặc không được đào tạo về đánh giá. Và sau đó, có những nhà nghiên cứu và thiết kế thử nghiệm được đào tạo về đánh giá, những người có ít hoặc không được đào tạo về phương pháp giảng dạy.

— rolando2

1

@ rolando2 - Tôi cảm thấy xấu hổ với tư cách là một nhà kinh tế rằng suy nghĩ về các ưu đãi trước đây hoặc trong khi thực hiện bài kiểm tra đã không xảy ra với tôi. Nếu những người tham gia thử nghiệm đang đối phó với một mục tiêu đang di chuyển và không biết cách sử dụng hợp lý thời gian và công sức của họ để trả lời từng câu hỏi, điều đó có thể có một số tác động thực sự đồi trụy!

— d_a_c321

Tôi thấy làm thế nào nó có thể làm họ bất mãn, nhưng bạn đang nghĩ đến loại hiệu ứng "đồi trụy" nào?

— rolando2

6

Một đối số đầu tiên đã làm với tính minh bạch. @ rolando2 đã thực hiện điểm này. Các sinh viên muốn biết ex-ante mỗi món đồ trị giá bao nhiêu.

Một lập luận thứ hai là các trọng số không chỉ phản ánh mức độ khó của câu hỏi mà còn cả mức độ quan trọng của người hướng dẫn gắn liền với một câu hỏi. Thật vậy, mục đích của một kỳ thi là kiểm tra và chứng nhận kiến thức và năng lực. Như vậy, các trọng số quy cho các câu hỏi và mục khác nhau phải được đặt trước bởi giáo viên. Bạn không nên quên rằng "tất cả các mô hình đều sai và chỉ một số là hữu ích". Trong trường hợp này người ta có thể có một số nghi ngờ về tính hữu ích.

Điều này đang được nói, tôi nghĩ rằng phân tích thống kê (ít nhiều ưa thích) có thể đến trong bài cũ, để phân tích kết quả. Ở đó nó có thể mang lại một số hiểu biết thú vị. Bây giờ, nếu điều này được thực hiện và mức độ được thực hiện, chắc chắn phụ thuộc vào các kỹ năng thống kê của giáo viên.

— cộng đồng
nguồn

2

Chắc chắn rồi! Là một người hướng dẫn, những gì tôi đang tìm kiếm không phải là một thứ hạng tương đối của các sinh viên - mà là một thước đo tuyệt đối về sự hiểu biết và kỹ năng. Tôi sẽ hoàn toàn xảy ra (rất vui, thậm chí), nếu hóa ra mọi người trong lớp được đo là hiểu 100% về chủ đề tôi đang giảng dạy. Vì vậy, các trọng số cho các câu hỏi được chọn để phản ánh tầm quan trọng của chúng và trọng lượng chúng nên có trong một đánh giá tổng thể về sự hiểu biết về chủ đề này.

— DW

2

Tôi muốn làm rõ về câu hỏi ban đầu. Trong lý thuyết phản hồi vật phẩm, sự phân biệt đối xử (tức là độ dốc vật phẩm hoặc tải yếu tố) không biểu thị độ khó. Sử dụng một mô hình cho phép thay đổi sự phân biệt đối xử cho từng mặt hàng có hiệu quả trọng số của chúng theo mối tương quan ước tính của chúng với biến tiềm ẩn, không phải bởi độ khó của chúng.

Nói cách khác, một mặt hàng khó hơn có thể được giảm trọng lượng nếu nó được ước tính là không tương quan với kích thước quan tâm và ngược lại, một mặt hàng dễ dàng hơn có thể được tăng trọng nếu được ước tính có tương quan cao.

Tôi đồng ý với các câu trả lời trước đó chỉ ra (a) sự thiếu nhận thức về các phương pháp trả lời vật phẩm giữa các học viên, (b) thực tế là việc sử dụng các mô hình này đòi hỏi một số chuyên môn kỹ thuật ngay cả khi người ta nhận thức được ưu điểm của chúng (đặc biệt là khả năng đánh giá phù hợp với mô hình đo lường), (c) kỳ vọng của học sinh như được chỉ ra bởi @ rolando2, và cuối cùng nhưng không kém (d) những cân nhắc về mặt lý thuyết mà giáo viên hướng dẫn có thể có đối với các hạng mục khác nhau. Tuy nhiên, tôi đã muốn đề cập rằng:

Không phải tất cả các mô hình lý thuyết phản hồi vật phẩm đều cho phép thay đổi tham số phân biệt đối xử, trong đó mô hình Rasch có lẽ là ví dụ nổi tiếng nhất của mô hình trong đó sự phân biệt đối xử giữa các mặt hàng được giữ không đổi. Theo họ mô hình Rasch, điểm tổng là một thống kê đủ cho điểm phản hồi của vật phẩm, do đó, sẽ không có sự khác biệt về thứ tự của người trả lời và sự khác biệt thực tế duy nhất sẽ được đánh giá cao nếu 'khoảng cách' giữa điểm số các nhóm được xem xét.
Có những nhà nghiên cứu bảo vệ việc sử dụng lý thuyết kiểm tra cổ điển (dựa trên việc sử dụng điểm tổng hợp truyền thống hoặc điểm trung bình chính xác) cho cả lý do lý thuyết và thực nghiệm. Có lẽ lập luận được sử dụng nhiều nhất là thực tế là điểm số được tạo ra theo lý thuyết phản hồi vật phẩm có hiệu quả rất giống với điểm số được tạo ra theo lý thuyết kiểm tra cổ điển. Xem ví dụ công trình của Xu & Stone (2011), Sử dụng IRT Trait Ước tính Điểm tổng hợp trong dự đoán kết quả , Đo lường giáo dục và tâm lý , trong đó họ báo cáo tương quan trên 0,97 trong một loạt các điều kiện.

— David
nguồn

(+1) Đoạn đầu tiên được đặt rất tốt. Về điểm 2, bằng cách nào đó tôi đã bỏ lỡ bài viết này, vì vậy cảm ơn bạn đã chia sẻ! Đáng lưu ý, các mối tương quan về cường độ tương đương sẽ được quan sát với các mô hình phân tích nhân tố truyền thống (trong đó các tải bắt chước tham số phân biệt đối xử - theo khung CTT, đó sẽ là hệ số tương quan điểm-biserial) với các khó khăn của vật phẩm được phân bố đồng đều trên đặc điểm tiềm ẩn ( tức là, không quá khó cũng không quá dễ dàng).

— chl

1

Không nên cho điểm của học sinh dựa trên những gì họ biết và trả lời trong bài kiểm tra hơn là những gì mọi người khác trong lớp làm?

Nếu bạn làm cùng một bài kiểm tra 2 năm khác nhau và bạn có 2 học sinh (mỗi học sinh 1) trả lời đúng các câu hỏi chính xác (không gian lận), có thực sự có ý nghĩa rằng họ sẽ nhận được các điểm khác nhau dựa trên số lượng học sinh khác trong Lớp học của họ?

Và cá nhân, tôi không muốn tạo cho bất kỳ sinh viên nào động lực để phá hoại bạn cùng lớp của họ thay vì tự học tài liệu.

IRT có thể cung cấp một số cái nhìn sâu sắc về bài kiểm tra, nhưng tôi sẽ không sử dụng nó để chủ động cân nhắc điểm số.

Khi tôi nghĩ về trọng số, tôi nghĩ rằng ai đó sẽ nhận được nhiều điểm hơn khi trả lời một câu hỏi khó, nhưng họ sẽ mất nhiều điểm hơn vì nhận được một câu hỏi dễ sai. Kết hợp những cái đó và bạn vẫn kết thúc với trọng số bằng nhau. Hoặc tôi thực sự cố gắng cân dựa trên thời gian hoặc nỗ lực cần thiết để trả lời câu hỏi, để ai đó trả lời các câu hỏi theo thứ tự khác không có lợi thế trong bài kiểm tra thời gian.

— Greg tuyết
nguồn

Các tổ chức thử nghiệm lớn sử dụng IRT cũng phải lo lắng về tính nhất quán giữa việc cung cấp thử nghiệm. Tính nhất quán của (các) biến tiềm ẩn là quan trọng nhưng có thể đạt được.

— D Coetzee