Pháp y thống kê: Benford và hơn thế nữa


23

Có những phương pháp rộng rãi nào để phát hiện gian lận, dị thường, làm mờ, v.v. trong các công trình khoa học do bên thứ ba sản xuất? (Tôi đã có động lực để hỏi điều này bởi vụ Marc Hauser gần đây .) Thông thường đối với gian lận bầu cử và kế toán, một số biến thể của Luật Benford được trích dẫn. Tôi không chắc làm thế nào điều này có thể được áp dụng cho ví dụ như trường hợp Marc Hauser, bởi vì Luật của Benford yêu cầu các con số phải được thống nhất về nhật ký.

Như một ví dụ cụ thể, giả sử một bài báo trích dẫn các giá trị p cho một số lượng lớn các bài kiểm tra thống kê. Người ta có thể chuyển đổi những thứ này để ghi lại tính đồng nhất, sau đó áp dụng Luật của Benford không? Có vẻ như sẽ có tất cả các loại vấn đề với cách tiếp cận này ( ví dụ: một số giả thuyết null có thể sai về mặt pháp lý, mã thống kê có thể đưa ra các giá trị p chỉ gần đúng, các thử nghiệm chỉ có thể đưa ra các giá trị p là đồng nhất theo null không có triệu chứng, v.v.)


2
Câu hỏi này rất cần một câu trả lời sẽ cung cấp các ví dụ thực tế về pháp y thống kê! Câu trả lời được chấp nhận hoàn toàn không làm điều đó. Có những ví dụ tuyệt vời gần đây, chẳng hạn như Simonsohn 2013 , Carlisle 2012 (và 2015 tiếp theo ), Pitt và Hill 2013 , và có lẽ nhiều hơn nữa.
amip nói Phục hồi lại

Câu trả lời:


11

Câu hỏi tuyệt vời!

Trong bối cảnh khoa học, có nhiều loại báo cáo có vấn đề và hành vi có vấn đề:

  • Gian lận : Tôi định nghĩa gian lận là một ý định có chủ ý từ phía tác giả hoặc nhà phân tích để trình bày sai các kết quả và trong đó việc trình bày sai có bản chất nghiêm trọng. Ví dụ chính là chế tạo hoàn chỉnh dữ liệu thô hoặc thống kê tóm tắt.
  • Lỗi : Các nhà phân tích dữ liệu có thể mắc lỗi ở nhiều giai đoạn phân tích dữ liệu từ nhập dữ liệu, thao tác dữ liệu, phân tích, báo cáo, giải thích.
  • Hành vi không phù hợp : Có nhiều hình thức hành vi không phù hợp. Nói chung, nó có thể được tóm tắt bởi một định hướng tìm cách xác nhận một vị trí cụ thể thay vì tìm kiếm sự thật.

Các ví dụ phổ biến về hành vi không phù hợp bao gồm:

  • Kiểm tra một loạt các biến phụ thuộc có thể và chỉ báo cáo biến có ý nghĩa thống kê
  • Không đề cập đến các vi phạm quan trọng của các giả định
  • Thực hiện các thao tác dữ liệu và các quy trình loại bỏ ngoại lệ mà không đề cập đến nó, đặc biệt khi các quy trình này không phù hợp và được chọn hoàn toàn để làm cho kết quả tốt hơn
  • Trình bày một mô hình như là xác nhận mà thực sự là thăm dò
  • Bỏ qua các kết quả quan trọng đi ngược lại với các đối số mong muốn
  • Chọn một bài kiểm tra thống kê chỉ dựa trên cơ sở rằng nó làm cho kết quả tốt hơn
  • Thực hiện một loạt năm hoặc mười nghiên cứu dưới sức mạnh trong đó chỉ có một nghiên cứu có ý nghĩa thống kê (có thể ở p = 0,04) và sau đó báo cáo nghiên cứu mà không đề cập đến các nghiên cứu khác

Nói chung, tôi đưa ra giả thuyết rằng sự bất tài có liên quan đến cả ba dạng hành vi có vấn đề. Một nhà nghiên cứu không hiểu làm thế nào để làm khoa học tốt nhưng nếu không muốn thành công sẽ có động cơ lớn hơn để đánh giá sai kết quả của họ và ít có khả năng tôn trọng các nguyên tắc phân tích dữ liệu đạo đức.

Những khác biệt ở trên có ý nghĩa cho việc phát hiện hành vi có vấn đề. Ví dụ: nếu bạn quản lý để nhận ra rằng một tập hợp các kết quả được báo cáo là sai, thì vẫn cần phải xác định xem liệu kết quả có phát sinh từ gian lận, lỗi hoặc hành vi không phù hợp hay không. Ngoài ra, tôi cho rằng các hình thức hành vi không phù hợp khác nhau phổ biến hơn nhiều so với gian lận.

Liên quan đến việc phát hiện hành vi có vấn đề, tôi nghĩ rằng phần lớn là một kỹ năng xuất phát từ kinh nghiệm làm việc với dữ liệu , làm việc với một chủ đề và làm việc với các nhà nghiên cứu. Tất cả những trải nghiệm này củng cố kỳ vọng của bạn về dữ liệu sẽ như thế nào. Do đó, những sai lệch lớn so với kỳ vọng bắt đầu quá trình tìm kiếm lời giải thích. Kinh nghiệm với các nhà nghiên cứu cho bạn cảm giác về các loại hành vi không phù hợp ít nhiều phổ biến. Trong sự kết hợp này dẫn đến việc tạo ra các giả thuyết. Ví dụ, nếu tôi đọc một bài báo và tôi ngạc nhiên với kết quả, nghiên cứu này không đủ mạnh và bản chất của bài viết cho thấy tác giả đã đặt ra một quan điểm, tôi đưa ra giả thuyết rằng có lẽ không nên đưa ra giả thuyết đáng tin cậy.

Các nguồn lực khác


4

Thật ra, Luật của Benford là một phương pháp vô cùng mạnh mẽ. Điều này là do phân phối tần số đầu tiên của Benford có thể áp dụng cho tất cả các loại dữ liệu xảy ra trong thế giới thực hoặc tự nhiên.

Bạn đúng rằng bạn có thể sử dụng Luật của Benford trong một số trường hợp nhất định. Bạn nói rằng dữ liệu phải có phân phối nhật ký thống nhất. Về mặt kỹ thuật, điều này là hoàn toàn chính xác. Nhưng, bạn có thể mô tả yêu cầu theo cách đơn giản và nhẹ nhàng hơn nhiều. Tất cả những gì bạn cần là phạm vi tập dữ liệu vượt qua ít nhất một bậc độ lớn. Giả sử từ 1 đến 9 hoặc 10 đến 99 hoặc 100 đến 999. Nếu nó vượt qua hai đơn đặt hàng lớn, bạn đang kinh doanh. Và, Luật của Benford sẽ khá hữu ích.

Cái hay của Luật Benford là nó giúp bạn thu hẹp cuộc điều tra của bạn thực sự nhanh chóng trên kim trong đống dữ liệu hay. Bạn tìm kiếm sự bất thường theo đó tần số của chữ số đầu tiên khác nhiều so với tần số Benford. Khi bạn nhận thấy rằng có hai chiếc 6s, sau đó bạn sử dụng Luật Benford để tập trung vào chiếc 6s; nhưng, bây giờ bạn lấy nó đến hai chữ số đầu tiên (60, 61, 62, 63, v.v ...). Bây giờ, có thể bạn phát hiện ra có rất nhiều 63 sau đó những gì Benford đề xuất (bạn sẽ làm điều đó bằng cách tính tần số của Benford: log (1 + 1/63) mang lại cho bạn giá trị gần 0%). Vì vậy, bạn sử dụng Benford đến ba chữ số đầu tiên. Vào thời điểm bạn phát hiện ra có quá nhiều 632 giây (hoặc bất cứ điều gì bằng cách tính tần số của Benford: log (1 + 1/632)) so với dự kiến, bạn có thể đang làm gì đó. Không phải tất cả sự bất thường là gian lận. Nhưng,

Nếu tập dữ liệu mà Marc Hauser thao túng là dữ liệu không bị ràng buộc tự nhiên với phạm vi liên quan đủ rộng, thì Luật Benford sẽ là một công cụ chẩn đoán khá tốt. Tôi chắc chắn có những công cụ chẩn đoán tốt khác cũng phát hiện các mô hình không khả thi và bằng cách kết hợp chúng với Luật của Benford, rất có thể bạn đã điều tra vụ Marc Marcer một cách hiệu quả (xem xét yêu cầu dữ liệu được đề cập của Luật Benford).

Tôi giải thích Luật của Benford nhiều hơn một chút trong bài trình bày ngắn này mà bạn có thể thấy ở đây: http://www.sl slideshoware.net/gaetanlion/benfords-law-4669483

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.