Là cuộc săn lùng của Joel Spolsky của Snark Hồi có phân tích nội dung thống kê hợp lệ không?


25

Nếu bạn đã đọc các bản tin cộng đồng gần đây, có thể bạn đã xem The Hunting of the Snark, một bài đăng trên blog StackExchange chính thức của Joel Spolsky, CEO của mạng StackExchange. Ông thảo luận về một phân tích thống kê được thực hiện trên một mẫu các bình luận SE để đánh giá "sự thân thiện" của họ từ góc độ bên ngoài của người dùng. Các ý kiến ​​được lấy mẫu ngẫu nhiên từ StackOverflow và các nhà phân tích nội dung là thành viên của cộng đồng Mechanical Turk của Amazon, một thị trường làm việc kết nối các công ty với những công nhân làm những nhiệm vụ nhỏ, ngắn với chi phí phải chăng.

Cách đây không lâu, tôi là một sinh viên tốt nghiệp ngành khoa học chính trị và một trong những lớp tôi học là Phân tích nội dung thống kê . Trên thực tế, toàn bộ mục đích của lớp học là thực hiện một phân tích chi tiết về báo cáo chiến tranh của Thời báo New York, để kiểm tra xem có nhiều giả định mà người Mỹ đưa ra về tin tức trong các cuộc chiến là chính xác hay không (bằng chứng cho thấy không phải). Dự án này rất lớn và khá thú vị, nhưng cho đến nay, phần đau đớn nhất của nó là "giai đoạn thử nghiệm đào tạo và độ tin cậy", xảy ra trước khi chúng tôi có thể tiến hành phân tích đầy đủ. Nó có hai mục đích (xem trang 9 của bài viết được liên kết để mô tả chi tiết, cũng như tham khảo các tiêu chuẩn về độ tin cậy của bộ mã hóa trong tài liệu thống kê phân tích nội dung):

  1. Xác nhận tất cả các lập trình viên, tức là người đọc nội dung, đã được đào tạo về các định nghĩa định tính giống nhau. Trong phân tích của Joel, điều này có nghĩa là mọi người sẽ biết chính xác cách dự án định nghĩa "thân thiện" và "không thân thiện".

  2. Xác nhận tất cả các lập trình viên đã giải thích các quy tắc này một cách đáng tin cậy, tức là chúng tôi đã lấy mẫu của chúng tôi, phân tích tập hợp con và sau đó thống kê chứng minh mối tương quan theo cặp của chúng tôi trên các đánh giá định tính khá giống nhau.

Kiểm tra độ tin cậy bị tổn thương vì chúng tôi phải làm điều đó ba hoặc bốn lần. Cho đến khi -1- bị khóa và -2- cho thấy mối tương quan cặp đủ cao, kết quả phân tích đầy đủ của chúng tôi bị nghi ngờ. Họ không thể được chứng minh hợp lệ hoặc không hợp lệ. Quan trọng nhất, chúng tôi đã phải thực hiện các thử nghiệm về độ tin cậy trước khi đặt mẫu cuối cùng.

Câu hỏi của tôi là: Phân tích thống kê của Joel thiếu một bài kiểm tra độ tin cậy thí điểm và không thiết lập bất kỳ định nghĩa hoạt động nào về "sự thân thiện". Dữ liệu cuối cùng có đủ tin cậy để nói bất cứ điều gì về tính hợp lệ của kết quả không?

Đối với một viễn cảnh, hãy xem xét đoạn mồi này về giá trị của độ tin cậy của bộ mã hóa và các định nghĩa hoạt động nhất quán. Từ sâu hơn trong cùng một nguồn, bạn có thể đọc về các bài kiểm tra độ tin cậy của phi công (mục 5 trong danh sách).

Theo gợi ý của Andy W. trong câu trả lời của anh ấy, tôi đang cố gắng tính toán nhiều thống kê độ tin cậy trên tập dữ liệu, có sẵn ở đây, sử dụng chuỗi lệnh này trong R (được cập nhật khi tôi tính toán số liệu thống kê mới).

Thống kê mô tả ở đây

Thỏa thuận tỷ lệ phần trăm (với dung sai = 0): 0,0143

Thỏa thuận tỷ lệ phần trăm (với dung sai = 1): 11.8

Alpha của Krippendorff : 0.1529467

Tôi cũng đã thử một mô hình phản hồi vật phẩm cho dữ liệu này trong một câu hỏi khác.


1
Công khai đã phát hành công khai dữ liệu mã hóa để người ta có thể đi và đánh giá độ tin cậy của chính các lập trình viên nếu muốn.
Andy W

3
Re: # 1 - Cần lưu ý rằng đây không phải là một bài tập nhiều về việc các bình luận thân thiện hay không, mà là một bài tập về việc các bình luận có được coi là thân thiện hay không với người dùng bên ngoài.
Rachel

3
@Rachel Tôi không nghĩ điều đó đúng. Nếu họ đang đo lường cách người ngoài cảm nhận ý kiến ​​về SO, họ sẽ cần một bộ mẫu lớn hơn 20 người.
Christopher

2
Đó là sự khác biệt giữa việc kết luận điều gì đó về cách người ngoài cảm nhận các bình luận và kết luận điều gì đó về chính các bình luận đó. Trong trường hợp đầu tiên, bạn cần một mẫu người lớn hơn nhiều và kết luận sẽ là "Người ngoài cuộc nghĩ rằng 2,3% ý kiến ​​SO là không thân thiện." Trong lần thứ hai, đó là "2,3% bình luận SO không thân thiện." Chúng là những kết luận khác nhau và tôi nghĩ rằng điều thứ hai có thể không thể đưa ra, bởi vì chúng tôi không thể chứng minh các lập trình viên đánh giá các bình luận tương tự mà không cần kiểm tra độ tin cậy.
Christopher

2
@Christopher Sự thân thiện là rất chủ quan mặc dù. Tùy thuộc vào người bạn hỏi, cùng một nhận xét có thể được xem là thân thiện và không thân thiện. Đó là lý do tại sao tôi nghĩ rằng điều quan trọng hơn là có được quan điểm từ một số lượng lớn người dùng ngẫu nhiên thay vì một người nào đó có cùng quan điểm như bạn.
Rachel

Câu trả lời:


6

Thỏa thuận tỷ lệ phần trăm (với dung sai = 0): 0,0143

Thỏa thuận tỷ lệ phần trăm (với dung sai = 1): 11.8

Alpha của Krippendorff: 0.1529467

Các thỏa thuận này đo lường rằng hầu như không có thỏa thuận phân loại - mỗi lập trình viên đều có điểm cắt nội bộ của riêng mình để đánh giá các bình luận là "thân thiện" hoặc "không thân thiện".

Nếu chúng tôi giả định rằng ba loại được sắp xếp theo thứ tự, nghĩa là: Không thân thiện <Trung lập <Thân thiện, chúng tôi cũng có thể tính tương quan nội hàm như một biện pháp thỏa thuận khác. Trên một mẫu ngẫu nhiên 1000 nhận xét, có ICC (2.1) là 0,28 và ICC (2, k) là 0,88. Điều đó có nghĩa là, nếu bạn chỉ lấy một trong số 20 người xếp loại, kết quả sẽ rất không đáng tin cậy (.28), nếu bạn lấy trung bình 20 người, thì kết quả là đáng tin cậy (.88). Lấy các kết hợp khác nhau của ba bộ đo ngẫu nhiên, độ tin cậy trung bình nằm trong khoảng từ 0,5 đến 0,5, vẫn còn được đánh giá là quá thấp.

Tương quan bivariate trung bình giữa hai lập trình viên là 0,34, cũng khá thấp.

Nếu các biện pháp thỏa thuận này được coi là thước đo chất lượng của các lập trình viên (những người thực sự nên thể hiện thỏa thuận tốt), thì câu trả lời là: họ không phải là những lập trình viên giỏi và nên được đào tạo tốt hơn. Nếu đây được coi là thước đo của "sự thỏa thuận tự phát giữa những người ngẫu nhiên tốt như thế nào", thì câu trả lời cũng là: không cao lắm. Là một điểm chuẩn, mối tương quan trung bình cho xếp hạng độ hấp dẫn vật lý là khoảng 0,47 - .71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). Câu châm ngôn hay huyền thoại về cái đẹp? Một tổng quan siêu phân tích và lý thuyết. Bản tin tâm lý, 126, 390 Từ423. doi: 10.1037 / 0033-2909.126.3.390


7

Độ tin cậy của điểm số thường được giải thích theo lý thuyết kiểm tra cổ điển . Ở đây người ta có một điểm thực sự X, nhưng những gì bạn quan sát được ở bất kỳ kết quả cụ thể nào không chỉ là điểm thực sự, mà là điểm thực sự với một số lỗi (ví dụ Observed = X + error). Về lý thuyết, bằng cách thực hiện nhiều biện pháp quan sát của cùng một bài kiểm tra cơ bản (đưa ra một số giả định về việc phân phối các lỗi của các bài kiểm tra đó), người ta có thể đo được điểm thực không quan sát được.

Lưu ý ở đây trong khung này rằng bạn phải giả định rằng nhiều biện pháp quan sát được của bạn đang đo cùng một bài kiểm tra cơ bản. Độ tin cậy kém của các vật phẩm thử nghiệm sau đó thường được lấy làm bằng chứng cho thấy các biện pháp quan sát được không đo lường cùng một thử nghiệm cơ bản. Đây chỉ là một quy ước của lĩnh vực, tuy nhiên, độ tin cậy kém, về bản thân nó, không chứng minh (theo bất kỳ ý nghĩa thống kê nào) các mặt hàng không được đo cùng một cấu trúc. Vì vậy, có thể lập luận rằng bằng cách thực hiện nhiều biện pháp được quan sát, ngay cả với các bài kiểm tra rất không đáng tin cậy, người ta có thể đưa ra một thước đo đáng tin cậy về điểm số thực sự.

Người ta cũng đề cập rằng lý thuyết kiểm tra cổ điển không nhất thiết là cách duy nhất để diễn giải các bài kiểm tra đó, và nhiều học giả sẽ cho rằng khái niệm về các biến tiềm ẩn và lý thuyết đáp ứng vật phẩm luôn phù hợp hơn lý thuyết kiểm tra cổ điển.


Ngoài ra một giả định ngầm tương tự trong lý thuyết kiểm tra cổ điển là khi mọi người nói rằng độ tin cậy quá cao. Nó không nói bất cứ điều gì về tính hợp lệ của việc liệu (các) vật phẩm cụ thể có đo lường một số thử nghiệm cơ bản hay không, nhưng khi độ tin cậy quá cao, các nhà nghiên cứu sẽ coi đó là bằng chứng cho thấy lỗi giữa các thử nghiệm không độc lập.

Tôi không chắc chắn lý do tại sao bạn rất kịch liệt về việc không đi vào và tự tính toán các mối quan hệ. Tại sao người ta không thể làm điều này và sau đó diễn giải phân tích theo thông tin bổ sung này?


Vì vậy, trước tiên hãy để tôi chỉ ra rằng tôi không còn là học sinh tốt nghiệp làm chỉ số nữa vì một lý do chính đáng: đó không phải là sở trường của tôi. Tôi có thể đang đánh giá sai phương pháp luận. Tất cả đều giống nhau, tôi nghĩ rằng bạn và tôi có thể đang nói về các biện pháp khác nhau về độ tin cậy, hoặc ít nhất là có nghiên cứu đề xuất đo lường độ tin cậy của bộ mã hóa trước khi tiến hành phân tích cuối cùng để xác định tính hợp lệ. Tôi đã chỉnh sửa câu hỏi để đưa vào một nguồn mà tôi tìm thấy trên web, trong đó trích dẫn nhiều nghiên cứu hơn về chủ đề này.
Christopher

Đó là một bối cảnh khác nhau (độ tin cậy của các mục kiểm tra nhị phân thay vì một số kết quả liên tục), nhưng logic là về mặt chức năng như nhau. Do đó tại sao tôi không đề cập đến bất kỳ thước đo cụ thể nào về độ tin cậy (có rất nhiều). Câu nói của bạn không ám chỉ bất cứ điều gì về before the final analysis, vì vậy tôi không chắc chắn khái niệm đó đến từ đâu.
Andy W

À ha. Bạn đúng, nó không hoàn toàn là một yêu cầu. Đọc thêm về liên kết mà tôi đã đăng, có vẻ như bài kiểm tra thí điểm này được coi là một phương pháp hay nhất về phương pháp (tìm kiếm bài kiểm tra thí điểm trong đó).
Christopher

Tôi đã thay đổi câu hỏi của mình để phù hợp với thông tin mới. Cảm ơn bạn đã giúp sửa lỗi của tôi.
Christopher

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.