thử nghiệm trên sở thích người dùng


8

Tôi đã tạo một thử nghiệm người dùng để so sánh hai phương pháp: M1 và M2. Tôi tạo ra 40 trường hợp thử nghiệm và hiển thị kết quả của từng phương pháp trên trường hợp thử nghiệm cho 20 cá nhân, cạnh nhau, các cá nhân không biết kết quả đến từ phương pháp nào. Đối với mỗi trường hợp thử nghiệm, mỗi người phải nói rằng kết quả được tính bằng M1 là tốt hơn hay M2 tốt hơn hay chúng đều tốt như nhau.

Tôi muốn biết nếu M1 tốt hơn M2. Tôi cộng tất cả các kết quả và tạo biểu đồ 3 chiều, phiếu bầu cho M1, phiếu bầu cho cà vạt và phiếu bầu cho M2.

Nếu tôi chỉ xem M1 và M2 là biểu đồ 2 chiều. Tôi biết rằng nếu M1 và M2 tốt như nhau thì biểu đồ này sẽ đồng nhất. Sau đó, tôi sẽ thực hiện kiểm tra .χ2

Những gì tôi không biết làm thế nào để mô hình là phiếu bầu cho cà vạt. Đây là hai lựa chọn tôi đã nghĩ đến:

  • Cơ sở của kiểm tra chi bình phương là biểu đồ là loại trừ lẫn nhau và cộng lại thành một. Có vẻ như phiếu bầu cho cà vạt có thể được chia làm hai và được thêm vào mỗi M1 và M2 (và các mối quan hệ bị loại bỏ), nhưng điều này có vẻ không nguyên tắc lắm.
  • Một lựa chọn khác là tôi có thể bỏ qua các mối quan hệ, điều đó có vẻ thiếu sót vì nó phá vỡ thuộc tính "thêm vào một". Ví dụ: nếu tôi có (M1: 2, quan hệ: 98 M2: 0) thì sự khác biệt giữa cả hai phương pháp sẽ không có ý nghĩa thống kê.

Tôi có thể làm gì nữa? Tôi đang nhìn không chính xác? Đây có vẻ như là một vấn đề phổ biến mà mọi người sẽ gặp phải khi lập mô hình phiếu bầu của người dùng. Cách chính xác để mô hình các mối quan hệ là gì?


Nghe có vẻ giống như bạn đang đối phó với một mô hình (so sánh) ưu tiên được ghép nối , phải không?
chl

Tôi không hiểu tại sao vấn đề là M1: 2 Ties: 98 M2: 0 không có ý nghĩa thống kê. Về bản chất, bạn sẽ có một mẫu gồm 2 người có sở thích và không có bảng nào chỉ có 2 người sẽ được thống kê. sig.
Peter Flom

2
Không, hai người đang trả lời các câu hỏi khác nhau, vì vậy họ nhận được câu trả lời khác nhau. Tôi bỏ các mối quan hệ dường như để trả lời câu hỏi bạn muốn hỏi
Peter Flom

1
Một ghi chú bên lề, re: "Nếu tôi chỉ xem M1 và M2 là biểu đồ 2 chiều. Tôi biết rằng nếu M1 và M2 tốt như nhau thì biểu đồ này sẽ đồng nhất", đây là một quan niệm sai lầm phổ biến. Các bài kiểm tra chỉ kiểm tra xem hàng & cột là độc lập, tức là mỗi hàng cũng tương tự như các hàng khác; họ không cần phải thống nhất. χ2
gung - Phục hồi Monica

2
Chắc chắn rằng sự phân phối của một khuôn công bằng là một bộ đồng phục riêng biệt, và rằng một khuôn cụ thể có thể được kiểm tra dựa trên "phân phối lý thuyết cụ thể" này cho sự công bằng. Nhưng tốt lành của sự phù hợp xét nghiệm cũng có thể được tiến hành chống lại khác (không đồng nhất) phân bố lý thuyết, và các χ 2 thử nghiệm độc lập (mà bạn sẽ sử dụng) chắc chắn không đòi hỏi này. χ2 χ2
gung - Tái lập Monica

Câu trả lời:


6

Một mô hình có ý nghĩa tâm lý có thể hướng dẫn chúng ta.

Đạo hàm của một bài kiểm tra hữu ích

Bất kỳ biến thể trong các quan sát có thể được quy cho các biến thể giữa các đối tượng. Chúng ta có thể tưởng tượng rằng mỗi đối tượng, ở một mức độ nào đó, đưa ra một giá trị số cho kết quả của phương pháp 1 và một giá trị số cho kết quả của phương pháp 2. Sau đó, họ so sánh các kết quả này. Nếu hai cái này đủ khác nhau, đối tượng sẽ đưa ra lựa chọn xác định, nhưng nếu không thì đối tượng sẽ tuyên bố ràng buộc. (Điều này liên quan đến sự tồn tại của ngưỡng phân biệt đối xử .)

Sự khác biệt giữa các đối tượng gây ra sự khác biệt trong các quan sát thử nghiệm. Sẽ có một cơ hội nhất định của phương pháp ủng hộ 1, một cơ hội nhất định π 2 của phương pháp ủng hộ 2 và một cơ hội nhất định π 0 của một cà vạt.π1π2π0

Thật công bằng khi cho rằng đối tượng trả lời độc lập với nhau. Theo đó, khả năng quan sát đối tượng ủng hộ phương pháp 1, n 2 đối tượng ủng hộ phương pháp 2 và n 0 đối tượng đưa ra quan hệ, là đa phương thức . Ngoài một hằng số chuẩn hóa (không liên quan), logarit của khả năng bằngn1n2n0

n1đăng nhập(π1)+n2đăng nhập(π2)+n0đăng nhập(π0).

Cho rằng , điều này được tối đa hóa khi π i = n i / n trong đó n = n 0 + n 1 + n 2 là số đối tượng.π0+π1+π2= =0πTôi= =nTôi/nn= =n0+n1+n2

Để kiểm tra giả thuyết khống rằng hai phương pháp được coi là tốt như nhau, chúng tôi tối đa hóa khả năng chịu sự hạn chế của giả thuyết này. Mang trong tâm trí các mô hình tâm lý và gọi của một ngưỡng giả, chúng tôi sẽ phải sống với khả năng rằng (cơ hội quan hệ) là khác không. Cách duy nhất để phát hiện một khuynh hướng ủng hộ một mô hình trên những lời dối trá khác trong cách π 1π 2 bị ảnh hưởng: nếu mô hình 1 được ưa chuộng, sau đó π 1 nên tăng và π 2 giảm, và ngược lại . Giả sử biến thể là đối xứngπ0π1π2π1π2, tình huống không ưu tiên xảy ra khi . (Kích thước của π 0 sẽ cho chúng ta biết điều gì đó về ngưỡng - về khả năng phân biệt đối xử - nhưng mặt khác không cung cấp thông tin về sở thích.)π1= =π2π0

Khi không có mô hình ưa thích, khả năng tối đa xảy ra khi và, một lần nữa,π0=n0/n. Cắm vào hai giải pháp trước đó, chúng tôi tính toán sự thay đổi về khả năng tối đa,G:π1= =π2= =n1+n22/nπ0= =n0/nG

G= =(n1đăng nhậpn1n+n2đăng nhậpn2n+n0đăng nhậpn0n)-(n1đăng nhập(n1+n2)/2n+n2đăng nhập(n1+n2)/2n+n0đăng nhậpn0n)= =n1đăng nhập2n1n1+n2+n2đăng nhập2n2n1+n2.

Kích thước của giá trị này - không thể âm - cho chúng ta biết giả thuyết null đáng tin cậy như thế nào: khi nhỏ, dữ liệu được "giải thích" gần như hoàn toàn với giả thuyết null (hạn chế) như nói chung; khi giá trị lớn, giả thuyết null sẽ không đáng tin cậy.G

Lý thuyết ước tính khả năng tối đa (tiệm cận) nói rằng ngưỡng hợp lý cho sự thay đổi này là một nửa so với lượng tử của phân bố chi bình phương với một bậc tự do (do hạn chế duy nhất π 1 = π 2 áp đặt bởi giả thuyết khống). Như thường lệ, αkích thước của thử nghiệm này, thường được lấy là 5% ( 0,05 ) hoặc 1% ( 0,01 ). Các lượng tử tương ứng là 3,8414596,634897 .1-απ1= =π2α0,050,013,8414596,634897


Thí dụ

Giả sử trong số đối tượng, n 1 = 3 phương thức ưu tiên 1 và n 2 = 9 phương pháp ưu tiên 2. Điều đó ngụ ý có n 0 = 20 - 3 - 9 = 8 quan hệ. Khả năng là tối đa, sau đó, cho π 1 = 3 / 20 = 0,15pi 2 = 9 / 20 = 0,45 , nơi nó có một giá trị - 20,208 ...n= =20n1= =3n2= =9n0= =20-3-9= =số 8π1= =3/20= =0,15π2= =9/20= =0,45-20.208Giáo dục. Theo giả thuyết khả năng được thay tối đa cho , nơi giá trị của nó chỉ là - 21,778 . Sự khác biệt của G = - 20,208 - ( - 21,778 ) = 1,57ít hơn một nửa số α = ngưỡng 5% 3,84 . Do đó, chúng tôi không bác bỏ giả thuyết khống.π1= =π2= =6/20= =0,30-21.778G= =-20.208-(-21.778)= =1,57α= =3,84


Về quan hệ và kiểm tra thay thế

Nhìn lại công thức của , lưu ý rằng số lượng mối quan hệ ( n 0 ) không xuất hiện . Trong ví dụ, nếu chúng ta thay vào đó quan sát n = 100 đối tượng và trong số đó có 3 phương pháp ưa thích 1, 9 phương pháp 2 ưa thích và 100 - 3 - 9 = 88 còn lại được buộc, kết quả sẽ giống nhau.Gn0n= =10039100-3-9= =88

Chia tách các mối quan hệ và gán một nửa cho phương pháp 1 và một nửa cho phương pháp 2 là hợp lý theo trực giác, nhưng nó dẫn đến một thử nghiệm ít mạnh mẽ hơn . Chẳng hạn, đặt n 2 = 15 . Hãy xem xét hai trường hợp:n1= =5n2= =15

  1. môn học, vì vậy có n 0 = 0 quan hệ. Thử nghiệm khả năng tối đa sẽ từ chối null cho bất kỳ giá trị nào của α lớn hơn 0,02217 . Một thử nghiệm khác thường được sử dụng trong tình huống này (vì không có mối quan hệ nào) là thử nghiệm nhị thức; nó sẽ từ chối null cho bất kỳ giá trị nào của α lớn hơn 0,02660 . Do đó, hai thử nghiệm thường cho kết quả giống nhau, vì các giá trị quan trọng này khá gần nhau.n= =20n0= =0α0,02217α0,02660

  2. môn học, vì vậy có n 0 = 80 quan hệ. Thử nghiệm khả năng tối đavẫnsẽtừ chối null cho bất kỳ giá trị nào của α lớn hơn 0,02217 . Các thử nghiệm nhị thức sẽ từ chối null chỉ đối với bất kỳ giá trị của α lớn hơn 0,3197 . Hai bài kiểm tra cho kết quả hoàn toàn khác nhau. Cụ thể, 80 mối quan hệ đã làm suy yếu khả năng của phép thử nhị thức để phân biệt một sự khác biệt mà lý thuyết khả năng tối đa cho thấy là có thật.n= =100n0= =80α0,02217α0.319780

Cuối cùng, hãy xem xét cách tiếp cận bảng dự phòng 3×1 đề xuất trong câu trả lời khác. Xét đối tượng với n 1 = 3 phương pháp ưu tiên 1, n 2 = 10 phương pháp ưu tiên 2 và n 0 = 7 với các mối quan hệ. "Bảng" chỉ là vectơ ( n 0 , n 1 , n 2 ) = ( 7 , 3 , 10 ) . Thống kê chi bình phương của nó làn= =20n1= =3n2= =10n0= =7(n0,n1,n2)= =(7,3,10) với hai bậc tự do. Giá trị p là 0,1572 , điều này sẽ khiến hầu hết mọi người kết luận rằng không có sự khác biệt giữa các phương pháp. Thay vào đó, kết quả khả năng tối đa thay cho giá trị p là 0,04614 , sẽ từ chối kết luận này ở mức α = 5%.3.70,15720,04614α= =

Với đối tượng, giả sử chỉ có 1 phương pháp được ưu tiên 1, chỉ có 2 phương pháp được ưa thích 2 và có 97 mối quan hệ. Theo trực giác có rất ít bằng chứng cho thấy một trong những phương pháp này có xu hướng được ưa chuộng. Nhưng lần này, thống kê chi bình phương 182,42 rõ ràng, không thể thay đổi, (nhưng khá sai) cho thấy có một sự khác biệt (giá trị p nhỏ hơn 10 - 15 ).n= =1001297182,4210-15

Trong cả hai trường hợp , cách tiếp cận chi bình phương nhận được câu trả lời hoàn toàn sai: trong trường hợp đầu tiên, nó thiếu sức mạnh để phát hiện sự khác biệt đáng kể trong khi trong trường hợp thứ hai (với rất nhiều mối quan hệ), nó cực kỳ tự tin về sự khác biệt không đáng kể. Vấn đề không phải là bài kiểm tra chi bình phương là xấu; vấn đề là nó kiểm tra một giả thuyết khác: cụ thể là, liệu . Theo mô hình khái niệm của chúng tôi, giả thuyết này là vô nghĩa tâm lý, bởi vì nó lẫn lộn thông tin về sở thích (cụ thể là, pi 1π 2 ) với thông tin về ngưỡng của phân biệt đối xử (cụ thể là,π1= =π2= =π0π1π2 ). Đây là một minh chứng tốt đẹp về nhu cầu sử dụng bối cảnh nghiên cứu và kiến ​​thức về chủ đề (tuy nhiên được đơn giản hóa) trong việc lựa chọn một bài kiểm tra thống kê.π0


Bạn nói "Nhìn lại công thức của G, lưu ý rằng số lượng mối quan hệ (n0) không xuất hiện" ... nhưng tôi thấy n0 là một thuật ngữ trong công thức để thay đổi log-like. Có phải đó không phải là G?
russellpierce

1
@dr Xem biểu thức cuối cùng cho : đó là sự khác biệt về khả năng đăng nhập. Mặc dù cả hai khả năng đều phụ thuộc vào n 0 , việc hủy bỏ sẽ loại bỏ hoàn toàn sự phụ thuộc đó. Gn0
whuber

À, tôi hiểu rồi. Tôi đã bỏ lỡ dấu bằng chỉ ra việc giảm phương trình.
russellpierce

Làm thế nào để giải pháp của bạn so với một cách tiếp cận bảng dự phòng 2x2 không bao gồm các mối quan hệ?
russellpierce

1
@dr Nó phải giống hệt nhau. Quan điểm của sự phát sinh này là biện minh cho cách tiếp cận này bằng cách sử dụng các nguyên tắc cơ bản của suy luận thống kê và tâm lý học, bởi vì dường như mấu chốt của vấn đề liên quan đến cách xử lý các mối quan hệ đúng đắn.
whuber

1

Tôi nghi ngờ câu trả lời của người viết là (như thường lệ) đầy đủ hơn những gì tôi sắp gõ. Tôi thừa nhận, tôi có thể không hoàn toàn hiểu câu trả lời của người viết ... vì vậy những gì tôi đang nói có thể không phải là duy nhất hoặc hữu ích. Tuy nhiên, tôi đã không nhận thấy nơi mà các nhà sản xuất trả lời việc lồng các sở thích theo các cá nhân cũng như việc lồng các ưu tiên trong các trường hợp thử nghiệm đã được xem xét. Tôi nghĩ đưa ra câu hỏi làm rõ của người hỏi rằng:

Các trường hợp thực sự là một mẫu ngẫu nhiên của tất cả các trường hợp có thể. Tôi nghĩ một sự tương tự là như sau: cuộc bầu cử được xác định bởi những gì xảy ra tại các cuộc thăm dò, nhưng tôi có cho mỗi cử tri liên kết đảng của họ. Vì vậy, gần như mong đợi rằng một ứng cử viên từ một đảng này sẽ kêu gọi cử tri liên kết với đảng đó, nhưng điều này không nhất thiết là một ứng cử viên tuyệt vời có thể giành chiến thắng trong đảng của mình và chiến thắng mọi người từ đảng kia.

χ2

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1 sẽ được mã hóa là 1 (có) và 0 (không). Ở đây, việc chặn trên 0 sẽ chỉ ra ưu tiên của người đánh giá trung bình cho phương pháp 1 trong trường hợp thử nghiệm trung bình. Với các mẫu gần giới hạn hữu ích cho các kỹ thuật này, có lẽ tôi cũng sẽ sử dụng p đạn.fnc và ảnh hưởng.ME để điều tra các giả định của tôi và ảnh hưởng của các ngoại lệ.

Câu hỏi cơ bản về mối quan hệ ở đây dường như cũng được trả lời bởi whuber. Tuy nhiên, tôi sẽ (nói lại) rằng dường như các mối quan hệ làm giảm khả năng quan sát sự khác biệt có ý nghĩa thống kê giữa các phương pháp. Ngoài ra, tôi sẽ tuyên bố rằng việc loại bỏ chúng có thể khiến bạn ước tính quá mức các cá nhân ưu tiên cho một phương pháp so với phương pháp khác. Vì lý do sau, tôi sẽ để chúng vào.


R20800= =20*40

OP tuyên bố rằng "Tôi tạo ra 40 trường hợp thử nghiệm và hiển thị kết quả của từng phương pháp trên trường hợp thử nghiệm cho 20 cá nhân"; "Đối với mỗi trường hợp thử nghiệm, mỗi người phải nói rằng kết quả được tính toán bởi M1 tốt hơn hay M2 tốt hơn hoặc chúng bằng nhau tốt Vì vậy, tôi đã diễn giải OP khi nói rằng có 20 * 40 quan sát.
russellpierce

Bạn nói đúng, sẽ có rất nhiều tham số được ước tính trong dữ liệu này. Con số chính xác tôi mờ trên (một nơi mà gói số liệu thống kê đã cho phép tôi tự mãn với sự hiểu biết của mình về các phương trình cơ bản).
russellpierce
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.