Trường hợp phân biệt đối xử châu Á của Palantir: xác suất được tính như thế nào?


14

Tôi đã đọc bài viết này về trường hợp của Palantir, nơi Bộ Lao động đang buộc tội họ trong việc phân biệt đối xử với người châu Á. Có ai biết họ đã lấy những ước tính xác suất này từ đâu không?

Tôi không nhận được 1/741 trong mục (a).

(a) Đối với vị trí Kỹ sư QA, từ một nhóm hơn 730 ứng viên đủ điều kiện, khoảng 77% trong số đó là người Châu Á Pal Palirir đã thuê sáu ứng viên không phải người châu Á và chỉ có một ứng viên châu Á. Tác động bất lợi được tính toán bởi OFCCP vượt quá ba độ lệch chuẩn. Khả năng kết quả này xảy ra tùy theo cơ hội là xấp xỉ một trong 741.

(b) Đối với vị trí Kỹ sư phần mềm, từ một nhóm hơn 1.160 ứng viên đủ điều kiện, khoảng 85% trong số họ là người Châu Á Palantir đã thuê 14 ứng viên không phải người châu Á và chỉ có 11 ứng viên châu Á. Tác động bất lợi được tính toán bởi OFCCP vượt quá năm độ lệch chuẩn. Khả năng kết quả này xảy ra theo cơ hội là xấp xỉ một phần 3,4 triệu.

(c) Đối với vị trí Kỹ sư thực tập QA, từ một nhóm hơn 130 ứng viên đủ điều kiện, khoảng 73% trong số họ là người Châu Á Palantir đã thuê 17 ứng viên không phải người châu Á và chỉ có bốn ứng viên châu Á. Tác động bất lợi được tính toán bởi OFCCP vượt quá sáu độ lệch chuẩn. Khả năng kết quả này xảy ra theo cơ hội là xấp xỉ một phần tỷ.


bạn có thể chỉ ra phép tính bạn đã làm để có được thứ gì đó ngoài 1/741 không?
Ben Bolker

1
Ước tính của tôi là một chiều - nếu bạn nhân đôi nó để làm cho nó giống như một bài kiểm tra giả thuyết hai mặt, bạn sẽ tiến gần đến con số 1/741 đó.
Gregor --reinstate Monica--

3
Tôi đồng ý rằng nhân đôi không có ý nghĩa gì trong trường hợp này, tôi chỉ cố gắng đoán những gì có thể đã được thực hiện. Câu hỏi không phải là câu trả lời đúng nhưng làm thế nào mà họ đi đến ước tính này .
Gregor --reinstate Monica--

1
Sẽ thật tuyệt nếu ai đó chuyển đổi màn hình PDF thành một trích dẫn văn bản ...
amoeba nói Phục hồi

1
Tôi đã quản lý để OCR ảnh chụp màn hình của bạn bằng finereaderonline.com .
amip nói rằng Phục hồi Monica

Câu trả lời:


20

Tôi sẽ thiết kế ngược lại từ kinh nghiệm với các trường hợp phân biệt đối xử. Tôi chắc chắn có thể thiết lập nơi các giá trị của "một trong 741" , v.v. , xuất phát từ đó. Tuy nhiên, rất nhiều thông tin đã bị mất trong bản dịch mà phần còn lại của quá trình tái thiết của tôi phụ thuộc vào việc xem mọi người làm thế nào để thống kê trong các thiết lập phòng xử án. Tôi chỉ có thể đoán ở một số chi tiết.


Kể từ khi luật chống phân biệt đối xử được thông qua vào những năm 1960 (Tiêu đề VI), các tòa án ở Hoa Kỳ đã học cách xem xét các giá trị p và so sánh chúng với các ngưỡng 0,01 . Họ cũng đã học cách xem xét các hiệu ứng được tiêu chuẩn hóa, thường được gọi là "độ lệch chuẩn" và so sánh chúng với ngưỡng "hai đến ba độ lệch chuẩn". Để thiết lập một vụ kiện prima facie cho một vụ kiện phân biệt đối xử, các nguyên đơn thường cố gắng tính toán thống kê cho thấy "tác động khác biệt" vượt quá các ngưỡng này. Nếu tính toán như vậy không thể được hỗ trợ, trường hợp thường không thể tiến.0.050.01

Các chuyên gia thống kê cho các nguyên đơn thường cố gắng diễn đạt kết quả của họ theo các thuật ngữ quen thuộc này. Một số chuyên gia tiến hành kiểm tra thống kê trong đó giả thuyết null thể hiện "không có tác động bất lợi", cho rằng các quyết định tuyển dụng hoàn toàn ngẫu nhiên và không được kiểm soát bởi bất kỳ đặc điểm nào khác của nhân viên. (Cho dù đó là một thay thế một đầu hay hai đuôi có thể phụ thuộc vào chuyên gia và hoàn cảnh.) Sau đó, họ chuyển đổi giá trị p của thử nghiệm này thành một số "độ lệch chuẩn" bằng cách chuyển nó sang phân phối chuẩn thông thường- - ngay cả khi Tiêu chuẩn bình thường không liên quan đến thử nghiệm ban đầu. Theo cách vòng này, họ hy vọng sẽ truyền đạt kết luận rõ ràng cho thẩm phán.

Thử nghiệm ưa thích cho dữ liệu có thể được tóm tắt trong các bảng dự phòng là Thử nghiệm chính xác của Fisher. Sự xuất hiện của "Chính xác" trong tên của nó đặc biệt làm hài lòng các nguyên đơn, bởi vì nó bao hàm một quyết định thống kê đã được thực hiện mà không có lỗi (bất cứ điều gì có thể!).

Ở đây, sau đó, là (tái cấu trúc đầu cơ) của tôi về tính toán của Bộ Lao động.

  1. Họ chạy thử nghiệm chính xác Fisher, hoặc một cái gì đó giống như nó (chẳng hạn như một thử nghiệm với một giá trị p xác định thông qua ngẫu nhiên). Thử nghiệm này giả định phân phối siêu bội như được mô tả trong câu trả lời của Matthew Gunn. (Đối với số lượng nhỏ những người liên quan đến khiếu nại này, phân phối siêu bội không được xấp xỉ bằng phân phối chuẩn.)χ2

  2. Họ đã chuyển đổi giá trị p của nó thành điểm Z bình thường ("số độ lệch chuẩn").

  3. Họ làm tròn điểm Z thành số nguyên gần nhất: "vượt quá ba độ lệch chuẩn", "vượt quá năm độ lệch chuẩn" và "vượt quá sáu độ lệch chuẩn". (Bởi vì một số trong những Z-score làm tròn các lên đến độ lệch chuẩn hơn, tôi không thể biện minh cho việc "vượt quá"; tất cả tôi có thể làm là trích dẫn nó.)

  4. Trong đơn khiếu nại, các điểm Z tích hợp này đã được chuyển đổi thành giá trị p! Một lần nữa, phân phối chuẩn đã được sử dụng.

  5. Các giá trị p này được mô tả (được cho là theo cách hiểu sai) là "khả năng kết quả này xảy ra theo cơ hội."

Để hỗ trợ suy đoán này, lưu ý rằng p-giá trị cho chính xác Kiểm tra Fisher trong ba trường hợp là khoảng , 1 / 565.0001 / 58.000.000 . Chúng dựa trên các nhóm giả định lần lượt là 730 , 1160130 tương ứng với "nhiều hơn" 730 , 1160130 . Những con số này có điểm Z bình thường là - 3,16 , - 4,64- 5,521/12801/5650001/58000000730116013073011601303.164.645.52, tương ứng, khi được làm tròn là ba, năm và sáu độ lệch chuẩn, chính xác là các số xuất hiện trong đơn khiếu nại. Chúng tương ứng với (one-đuôi) bình thường p-giá trị của , 1 / 3500000 , và 1 / 1000000000 : chính xác các giá trị trích dẫn trong đơn khiếu nại.1/7411/35000001/1000000000


Dưới đây là một số Rmã được sử dụng để thực hiện các tính toán này.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
Wow, tôi không thể đoán điều này có thể được thực hiện. Thật đáng sợ.
Aksakal

7
(+1) CSI: Số liệu thống kê.
Firebug

5

Làm thế nào để tính toán số lượng đúng cách bằng cách sử dụng phân phối siêu bội:

knKN

Đối với thử nghiệm một phía, trong MATLAB, bạn có thể gọi pval = hygecdf(k, N, K, n);hoặc trong trường hợp pval = hygecdf(1, 730, 562, 7)này là khoảng .0007839.

Độ lệch trung bình và độ lệch chuẩn được cho bởi:

μ=nKNs=nKNNKNNnN1

χ2

Tìm kiếm các công thức mà OFCCP có thể sử dụng, trang web này tôi thấy có lẽ hữu ích: http://www.hr-software.net/EmploymentStatistic/DisparateImpact.htmlm

Tóm tắt một số tính toán:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

χ2(expectedactual)2expected


1
Tôi đã nhận được kết quả tương tự nhưng khác nhau. Nó không gần 1/741
Aksakal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.