Làm thế nào để bắt đầu với việc áp dụng lý thuyết phản hồi vật phẩm và sử dụng phần mềm nào?


21

Bối cảnh

Tôi đã đọc về lý thuyết phản hồi vật phẩm, và tôi thấy nó hấp dẫn. Tôi tin rằng tôi hiểu những điều cơ bản, nhưng tôi không biết làm thế nào để áp dụng các kỹ thuật thống kê liên quan đến khu vực. Dưới đây là hai bài viết tương tự như lĩnh vực tôi muốn áp dụng ITR trong:

Thứ hai là thứ tôi thực sự muốn gia hạn vào thời điểm này.

Tôi đã tải xuống một chương trình miễn phí có tên jMetrik, và nó dường như đang hoạt động rất tốt. Tôi nghĩ rằng nó có thể quá cơ bản cho đến khi IRT đi, nhưng tôi không chắc chắn.

Tôi biết cách "tốt nhất" có thể sẽ liên quan đến việc học R; tuy nhiên, tôi không biết liệu mình có thể dành thời gian để giải quyết vấn đề học tập đó không. Lưu ý rằng chúng tôi có một số tiền để mua phần mềm, nhưng từ những gì tôi thấy, dường như không có bất kỳ chương trình IRT tuyệt vời nào ngoài đó.

Câu hỏi

  • Suy nghĩ của bạn về hiệu quả của jMetrik là gì?
  • Làm thế nào bạn có thể đề nghị tôi đi tiếp trong việc áp dụng IRT?
  • Các chương trình tốt nhất để áp dụng IRT là gì?
  • Có ai trong số bạn sử dụng IRT thường xuyên không? Nếu vậy thì thế nào?

1
bạn đang sử dụng phần mềm nào?
StasK

Tôi đã được sử dụng jMetrik. Nó trông khá mới mẻ và đã được thực hiện rất nhiều điều tôi quan tâm!
Behacad

2
Nó hoạt động trong một chế độ kịch bản? Nếu bạn chỉ có GUI, thì kết quả của bạn sẽ rất khó tái tạo. Một chế độ tập lệnh là phải cho bất kỳ phần mềm nghiêm trọng.
StasK

Câu trả lời:


22

Là một người khởi đầu tốt cho IRT, tôi luôn khuyên bạn nên đọc Hướng dẫn trực quan về lý thuyết phản hồi vật phẩm .

Một cuộc khảo sát về phần mềm có sẵn có thể được tìm thấy trên www.rasch.org .

Từ kinh nghiệm của mình, tôi thấy (các) lệnh Stata Raschtest (và có liên quan) rất tiện dụng trong hầu hết các trường hợp mà người ta quan tâm đến việc điều chỉnh mô hình một tham số. Đối với thiết kế phức tạp hơn, người ta có thể sử dụng GLLAMM ; có một ví dụ hoạt động tốt dựa trên cuốn sách, Các mô hình giải thích và phản hồi của De Boeck và Wilson (Springer, 2004).

Về R cụ thể, có rất nhiều gói đã trở nên khả dụng trong năm năm qua, ví dụ, hãy xem Chế độ xem nhiệm vụ CRAN có liên quan . Hầu hết trong số chúng được thảo luận trong một số đặc biệt của Tạp chí Phần mềm Thống kê (tập 20, 2007). Như đã thảo luận trong một phản hồi khác, ltmeRm cho phép phù hợp với một loạt các mô hình IRT. Vì họ dựa vào phương pháp ước lượng khác nhau --- đã ltmsử dụng cách tiếp cận cận biên trong khi eRmsử dụng phương pháp có điều kiện --- chọn cái này hay cái khác chủ yếu là vấn đề của mô hình bạn muốn phù hợp (eRm sẽ không phù hợp với các mô hình 2 hoặc 3 tham số) và mục tiêu đo lường mà bạn tuân theo: ước tính có điều kiện của các tham số người có một số thuộc tính tâm lý tốt trong khi cách tiếp cận cận biên cho phép bạn dễ dàng chuyển sang mô hình hiệu ứng hỗn hợp, như được thảo luận trong hai bài báo sau :

Ngoài ra còn có một số khả năng phù hợp với các mô hình Rasch bằng phương pháp MCMC, xem ví dụ gói MCMCpack (hoặc WinBUGS / JAGS , nhưng xem Mã BUGS cho Lý thuyết phản hồi vật phẩm , JSS (2010) 36).

Tôi không có kinh nghiệm với việc lập mô hình IRT cho IRT, vì vậy tôi sẽ để điều đó cho một người thành thạo hơn về lập trình SAS.

Các phần mềm chuyên dụng khác (chủ yếu được sử dụng trong đánh giá giáo dục) bao gồm: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (không trích dẫn danh sách đã có trên wikipedia ). Không có gì là miễn phí để sử dụng, nhưng phiên bản trình diễn giới hạn thời gian được đề xuất cho một số trong số họ. Tôi thấy jMetrik rất hạn chế khi tôi thử nó (một năm trước) và tất cả các chức năng đã có sẵn trong R. Tương tự như vậy, ConstructMap có thể được thay thế một cách an toàn bằng lme4 , như minh họa trong tài liệu được liên kết ở trên. Tôi cũng nên đề cập mdltm(Mô hình tính trạng tiềm ẩn rời rạc đa chiều) cho các mô hình Rasch hỗn hợp, bởi von Davier và coll., Được cho là đi kèm với cuốn sáchMô hình Rasch phân phối đa biến và hỗn hợp (Springer, 2007).


Tuyệt diệu! Cảm ơn bạn đã trả lời rất toàn diện! Cả hai câu trả lời này sẽ giúp tôi rất tốt, cũng như bất kỳ ai khác tò mò theo đuổi lĩnh vực này, tôi chắc chắn. Tôi khuyên bạn nên xem lại jMetrik, và có lẽ cho tôi suy nghĩ của bạn. Hiện tại nó có mô hình Rasch, đường cong ICC, một số đường cong IRT, phương trình IRT (mô hình 1PT, 2PT, 3PT), v.v.
Behacad

Tôi sẽ xem xét phiên bản cập nhật. Nhưng, thành thật mà nói, những gì @Stask nói là đáng để nhớ nếu bạn dự định làm bất cứ điều gì nghiêm trọng ngoài ước tính tham số và báo cáo trực quan. Để có được một ý tưởng về những gì tôi có nghĩa là, nhìn vào Giới thiệu về lý thuyết tâm lý với các ứng dụng trong R . (Nó bao gồm nhiều hơn những gì một số người gọi là tâm lý học "hiện đại".)
chl

@chi - Tôi đã nhận được kết quả rất khác nhau khi tôi chạy các phân tích IRT trong R bằng cách sử dụng ltm so với khi tôi chạy phân tích tương tự trong Mplus và sau đó trong Multilog (trong khi phân tích trong Mplus và Multilog giống hệt nhau). Tôi đã cố gắng tìm ra lý do tại sao với tác giả của ltm, nhưng không nhận được bất kỳ phản hồi nào. Bạn đã có bất kỳ trải nghiệm tương tự với kết quả khác biệt từ các gói phần mềm khác nhau chưa?
Tormod

ex5.5θp-βtôitôi= =1,Giáo dục,kp= =1,Giáo dục,nβtôi-θpđược mô hình hóa và phương pháp ước tính (khả năng cận biên so với khả năng có điều kiện) và đối với 2+ mô hình tham số cho dù các ngưỡng có được căn giữa hay không.
chl

@chi - Xin lỗi vì sự chậm trễ trong phản hồi, tôi không nhận thấy bình luận của bạn. Không biết điều này có còn phù hợp hay không, nhưng tôi có sự khác biệt khác nhau từ 0.184 - 1.429 cho các tham số phân biệt đối xử (a). Ví dụ: Mplus đã cho a = 5.084 trong khi ltm đưa ra cùng một mục a = 3.655. Nhìn chung, ltm đã cho a nhỏ hơn so với mplus. (Chạy các phân tích tương tự trong đa nhóm đã đưa ra một tương ứng với a từ Mplus). Các b là tương tự nhiều hơn.
Tormod

8

Đối với câu hỏi đầu tiên, tôi không có bất kỳ thông tin nào về jMetrick.

Khi áp dụng IRT, (như với bất kỳ quy trình thống kê nào khác), bước đầu tiên là sử dụng nó với càng nhiều loại dữ liệu khác nhau càng tốt. Có một đường cong học tập, nhưng tôi tin rằng nó là giá trị nó.

Một đặc điểm quan trọng của IRT là sự khác biệt giữa mô hình Rasch và mô hình IRT. Chúng được phát triển bởi những người khác nhau cho các mục đích khác nhau. Điều đó đang được nói, các mô hình IRT là một siêu mẫu của các mô hình Rasch.

Các mô hình Rasch là một mô hình tham số - họ cho rằng tất cả các mục trong bảng câu hỏi đều có tính dự đoán như nhau về đặc điểm tiềm ẩn.

Tuy nhiên, các mô hình IRT là hai mô hình tham số cho phép các câu hỏi khác nhau về khả năng cung cấp thông tin về khả năng của người tham gia.

Ngoài ra, có ba mô hình tham số giống như mô hình IRT, ngoại trừ việc chúng cho phép tham số đoán để tính đến khả năng người tham gia có thể trả lời đúng một cách tình cờ (điều này quan tâm nhiều hơn đến khả năng hơn là kiểm tra tính cách).

Ngoài ra, có IRT đa chiều ước tính nhiều khả năng tiềm ẩn cùng một lúc. Tôi không biết nhiều về điều này, nhưng đó là một lĩnh vực mà tôi dự định tìm hiểu thêm.

Ngoài ra còn có sự phân biệt giữa các phương pháp IRT lưỡng phân và đa hình. Các mô hình IRT lưỡng phân là những mô hình được sử dụng trong các bài kiểm tra khả năng, có câu trả lời đúng và sai. Các mô hình IRT polytomous được sử dụng trong các bài kiểm tra tính cách, trong đó có nhiều câu trả lời đều đúng (theo nghĩa là không có câu trả lời đúng).

Cá nhân tôi sử dụng R cho lý thuyết đáp ứng mục. Có hai gói chính mà tôi đã sử dụng, eRmchỉ phù hợp với các mô hình Rasch và ltmphù hợp với các mô hình lý thuyết đáp ứng vật phẩm (hai và ba mô hình tham số). Cả hai đều có chức năng tương tự, và cả hai đều cung cấp nhiều thói quen hơn cho các mô hình IRT phân đôi. Tôi không biết nếu R là "tốt nhất" cho IRT, thì nó không có sẵn vô số các mô hình IRT, nhưng nó chắc chắn là có thể mở rộng nhất, trong đó người ta có thể lập trình các mô hình này tương đối dễ dàng.

Tôi sử dụng IRT gần như dành riêng cho các mô hình đa hình, trong R. Tôi thường bắt đầu với các phương pháp IRT không tham số (được cung cấp trong gói mokken) để kiểm tra các giả định, sau đó tiến hành mô hình rasch, thêm độ phức tạp theo yêu cầu để có sự phù hợp tốt.

Đối với IRT đa chiều, có gói 'mirt', cung cấp chức năng này. Tôi đã không sử dụng nó vì vậy tôi không thể thực sự nhận xét.

Nếu bạn cài đặt các gói này vào R và gọi hàm 'vignette ("packagename")' thì bạn sẽ nhận được một số họa tiết hữu ích (chắc chắn cho eRmmokkencó thể cho các gói khác) có thể hữu ích cho bạn (tùy thuộc vào mức độ của bạn tinh vi toán học).

Cuối cùng, có một số cuốn sách hay có sẵn cho các mô hình rasch và irt. Lý thuyết trả lời vật phẩm cho các nhà tâm lý học thường được sử dụng (mặc dù tôi không thích phong cách này), và hơn nữa là chuỗi tinh vi kỹ thuật, có hai cuốn sách giáo khoa cực kỳ toàn diện và hữu ích - Sổ tay về Lý thuyết phản ứng vật phẩm hiện đạiMô hình Rasch: Cơ sở, Gần đây Phát triển và ứng dụng .

Tôi hi vọng cái này giúp được.


Cảm ơn bạn! Đó là nhiều đánh giá cao. Tôi cũng muốn nghe thêm về các tùy chọn phần mềm nếu ai đó có một số kiến ​​thức trong khu vực.
Behacad

3

jMetrik mạnh hơn bạn tưởng. Nó được thiết kế cho công việc vận hành trong đó các nhà nghiên cứu cần nhiều thủ tục trong một khung thống nhất duy nhất. Hiện tại bạn có thể ước tính các tham số IRT cho các mô hình thang điểm tín dụng và tín dụng một phần. Nó cũng cho phép liên kết quy mô IRT thông qua Stocking-Lord, Haebara và các phương pháp khác. Vì nó bao gồm một cơ sở dữ liệu tích hợp, đầu ra từ ước tính IRT có thể được sử dụng trong liên kết tỷ lệ mà không cần phải định hình lại các tệp dữ liệu. Hơn nữa, tất cả đầu ra có thể được lưu trữ trong cơ sở dữ liệu để sử dụng với các phương thức khác trong jMetrik hoặc các chương trình bên ngoài như R.

Bạn cũng có thể chạy nó với các tập lệnh thay vì GUI. Ví dụ: mã follwing sẽ (a) nhập dữ liệu vào cơ sở dữ liệu, (b) ghi điểm các mục bằng khóa trả lời, (c) ước tính các tham số mô hình Rasch và (d) xuất dữ liệu dưới dạng tệp CSV. Bạn có thể sử dụng tệp đầu ra cuối cùng làm đầu vào vào R để phân tích thêm hoặc bạn có thể sử dụng R để kết nối trực tiếp với cơ sở dữ liệu jMetrik và làm việc với các kết quả.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Phần mềm vẫn đang trong giai đoạn phát triển ban đầu. Tôi hiện đang thêm phân tích nhân tố khám phá và các mô hình phản hồi mục nâng cao hơn. Không giống như nhiều chương trình IRT khác, jMetrik là nguồn mở. tất cả các quy trình đo lường sử dụng thư viện tâm lý học hiện đang có sẵn trên GitHub, https://github.com/meyerjp3/psychometrics . Bất cứ ai quan tâm đến việc đóng góp đều được hoan nghênh.


0

Bạn có một danh sách khá nhiều câu hỏi ở đây, nhưng khá phù hợp với nhiều nhà nghiên cứu!

Tôi thực sự khuyên bạn nên đi tiếp trong IRT, nhưng chỉ khi tình huống của bạn đáp ứng yêu cầu. Ví dụ, nó phù hợp với các loại thử nghiệm bạn sử dụng và có lẽ quan trọng nhất là bạn có các cỡ mẫu cần thiết. Đối với dữ liệu nhiều lựa chọn nhị phân, tôi khuyến nghị mô hình 3PL (đối số Rasch của "đo lường khách quan" là không hấp dẫn) và 500-1000 thường là cỡ mẫu tối thiểu. Dữ liệu lưỡng phân mà không cần đoán, như các khảo sát tâm lý có phản hồi Y / N đối với các tuyên bố, hoạt động tốt với 2PL. Nếu bạn có thang đánh giá hoặc dữ liệu tín dụng một phần, có những mô hình đa hình được thiết kế dành riêng cho những tình huống đó.

IMHO, chương trình tốt nhất để áp dụng IRT là Xcalibre. Nó tương đối thân thiện với người dùng (GUI đơn giản cũng như một số loại dòng lệnh nếu bạn muốn vì lý do nào đó) và tạo ra đầu ra rất dễ đọc (báo cáo MS Word với các bảng và số liệu mở rộng). Tôi khuyên bạn không nên sử dụng R vì những lý do ngược lại. Hạn chế, tất nhiên, là nó không miễn phí, nhưng bạn có xu hướng nhận được những gì bạn trả tiền như họ nói. Mô tả đầy đủ, đầu ra ví dụ và dùng thử miễn phí có sẵn tại www.assess.com .


Bạn có muốn giải thích lý do tại sao đối số về "đo lường khách quan" Sensu Rasch (hay chính xác hơn là khả năng so sánh khách quan cụ thể) là "không thể thuyết phục được"?
Momo

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.