Nếu bạn đã đọc các bản tin cộng đồng gần đây, có thể bạn đã xem The Hunting of the Snark, một bài đăng trên blog StackExchange chính thức của Joel Spolsky, CEO của mạng StackExchange. Ông thảo luận về một phân tích thống kê được thực hiện trên một mẫu các bình luận SE để đánh giá "sự thân thiện" của họ từ góc độ bên ngoài của người dùng. Các ý kiến được lấy mẫu ngẫu nhiên từ StackOverflow và các nhà phân tích nội dung là thành viên của cộng đồng Mechanical Turk của Amazon, một thị trường làm việc kết nối các công ty với những công nhân làm những nhiệm vụ nhỏ, ngắn với chi phí phải chăng.
Cách đây không lâu, tôi là một sinh viên tốt nghiệp ngành khoa học chính trị và một trong những lớp tôi học là Phân tích nội dung thống kê . Trên thực tế, toàn bộ mục đích của lớp học là thực hiện một phân tích chi tiết về báo cáo chiến tranh của Thời báo New York, để kiểm tra xem có nhiều giả định mà người Mỹ đưa ra về tin tức trong các cuộc chiến là chính xác hay không (bằng chứng cho thấy không phải). Dự án này rất lớn và khá thú vị, nhưng cho đến nay, phần đau đớn nhất của nó là "giai đoạn thử nghiệm đào tạo và độ tin cậy", xảy ra trước khi chúng tôi có thể tiến hành phân tích đầy đủ. Nó có hai mục đích (xem trang 9 của bài viết được liên kết để mô tả chi tiết, cũng như tham khảo các tiêu chuẩn về độ tin cậy của bộ mã hóa trong tài liệu thống kê phân tích nội dung):
Xác nhận tất cả các lập trình viên, tức là người đọc nội dung, đã được đào tạo về các định nghĩa định tính giống nhau. Trong phân tích của Joel, điều này có nghĩa là mọi người sẽ biết chính xác cách dự án định nghĩa "thân thiện" và "không thân thiện".
Xác nhận tất cả các lập trình viên đã giải thích các quy tắc này một cách đáng tin cậy, tức là chúng tôi đã lấy mẫu của chúng tôi, phân tích tập hợp con và sau đó thống kê chứng minh mối tương quan theo cặp của chúng tôi trên các đánh giá định tính khá giống nhau.
Kiểm tra độ tin cậy bị tổn thương vì chúng tôi phải làm điều đó ba hoặc bốn lần. Cho đến khi -1- bị khóa và -2- cho thấy mối tương quan cặp đủ cao, kết quả phân tích đầy đủ của chúng tôi bị nghi ngờ. Họ không thể được chứng minh hợp lệ hoặc không hợp lệ. Quan trọng nhất, chúng tôi đã phải thực hiện các thử nghiệm về độ tin cậy trước khi đặt mẫu cuối cùng.
Câu hỏi của tôi là: Phân tích thống kê của Joel thiếu một bài kiểm tra độ tin cậy thí điểm và không thiết lập bất kỳ định nghĩa hoạt động nào về "sự thân thiện". Dữ liệu cuối cùng có đủ tin cậy để nói bất cứ điều gì về tính hợp lệ của kết quả không?
Đối với một viễn cảnh, hãy xem xét đoạn mồi này về giá trị của độ tin cậy của bộ mã hóa và các định nghĩa hoạt động nhất quán. Từ sâu hơn trong cùng một nguồn, bạn có thể đọc về các bài kiểm tra độ tin cậy của phi công (mục 5 trong danh sách).
Theo gợi ý của Andy W. trong câu trả lời của anh ấy, tôi đang cố gắng tính toán nhiều thống kê độ tin cậy trên tập dữ liệu, có sẵn ở đây, sử dụng chuỗi lệnh này trong R (được cập nhật khi tôi tính toán số liệu thống kê mới).
Thỏa thuận tỷ lệ phần trăm (với dung sai = 0): 0,0143
Thỏa thuận tỷ lệ phần trăm (với dung sai = 1): 11.8
Alpha của Krippendorff : 0.1529467
Tôi cũng đã thử một mô hình phản hồi vật phẩm cho dữ liệu này trong một câu hỏi khác.