Làm thế nào trọng số lại dữ liệu đa dạng Khảo sát Cộng đồng Mỹ ảnh hưởng đến biên lỗi của nó?


10

Bối cảnh: Tổ chức của tôi hiện đang so sánh số liệu thống kê đa dạng lực lượng lao động của mình (ví dụ:% người khuyết tật,% phụ nữ,% cựu chiến binh) với tổng lực lượng lao động có sẵn cho các nhóm này dựa trên Khảo sát Cộng đồng Hoa Kỳ (một dự án khảo sát của Cục Điều tra Dân số Hoa Kỳ). Đây là một điểm chuẩn không chính xác, bởi vì chúng tôi có một bộ công việc rất cụ thể có nhân khẩu học khác với lực lượng lao động nói chung. Nói, ví dụ, tổ chức của tôi chủ yếu là các kỹ sư. Kỹ thuật chỉ có khoảng 20% ​​phụ nữ trong tiểu bang của tôi. Nếu chúng ta so sánh bản thân với tổng điểm chuẩn lực lượng lao động, giống như 50% phụ nữ, thì sẽ khiến chúng ta hoảng hốt rằng chúng ta chỉ có 20% phụ nữ, đây là một thảm họa! khi thực sự, 20% là những gì chúng ta nên mong đợi bởi vì đó là những gì cảnh quan lao động trông như thế nào.

Mục tiêu của tôi: Những gì tôi muốn làm là lấy dữ liệu nghề nghiệp Khảo sát Cộng đồng Mỹ (theo danh mục đa dạng) và cân nhắc lại dựa trên thành phần công việc trong doanh nghiệp của tôi. Dưới đây là bộ dữ liệu mẫu cho nhân viên Dịch vụ Xã hội và Cộng đồng . Tôi muốn thêm các mã công việc được liệt kê cùng nhau (vì lối đi của chúng tôi là cho các nhóm công việc, không phải cho các mã công việc cụ thể), sau đó tôi muốn tính điểm chuẩn đó dựa trên số người chúng tôi có trong danh mục đó (ví dụ: 3.000 Xã hội của chúng tôi và Nhân viên phục vụ cộng đồng), sau đó tôi muốn làm tương tự với tất cả các nhóm công việc khác, cộng các số đó lại với nhau và chia cho tổng số công nhân của chúng tôi. Điều này sẽ cung cấp cho tôi một biện pháp đa dạng trọng số mới (ví dụ: từ 6% người khuyết tật đến 2% người khuyết tật).

Câu hỏi của tôi: Làm thế nào để tôi phù hợp với sai số cho điểm chuẩn cuối cùng này? Tôi không có bộ dữ liệu điều tra dân số thô (rõ ràng), nhưng bạn có thể xem tỷ lệ lỗi cho mỗi số trong liên kết mà tôi đã cung cấp bằng cách chuyển trường Trường Ước tính thành "Lỗi lề" ở đầu bảng. Các đồng nghiệp khác của tôi, những người đang làm việc với dữ liệu này hoàn toàn có ý định bỏ qua các lỗi sai, nhưng tôi lo lắng rằng chúng tôi đang tạo ra một chuẩn mực vô nghĩa về mặt thống kê cho chính mình. Dữ liệu này thậm chí vẫn có thể sử dụng được sau khi thao tác được mô tả ở trên?


3
Đừng xem xét lại ACS - đó là một sản phẩm tinh tế, cực kỳ tinh vi và với tất cả sự tôn trọng Tôi không nghĩ bạn là một nhà thống kê tốt như Cục điều tra dân số. Nếu bạn có thể nhận được các định nghĩa về công việc phù hợp với nhiệm vụ của mình trong ACS hoặc CPS để so sánh trên toàn quốc, thì so sánh táo với nhau sẽ là tính toán số lượng danh mục "đa dạng" dự kiến ​​dựa trên ACS để doanh nghiệp của bạn hoạt động như sự đa dạng hợp lý mục tiêu.
StasK

2
Stas, tôi đồng ý với bạn, nhưng như tôi chỉ ra dưới đây, đây thực sự không phải là một sự tái hiện của ACS.
Steve Samuels

Trong thống kê khảo sát, "xem xét lại" có nghĩa là chuyển đổi các trọng số khảo sát ban đầu . Một ví dụ về điều này sẽ là phân tầng sau, cào mẫu hoặc hiệu chuẩn sao cho các phân phối biên nhất định cho các phân phối khớp mẫu được xem lại bên ngoài, được biết từ điều tra dân số hoặc ACS. Quy trình Danica đề cập không chạm vào trọng lượng ACS.
Steve Samuels

Những gì có thể giúp là viết ra số lượng dân số hữu hạn mà bạn muốn biết. ACS có sao chép trọng lượng không? Đây có thể giúp với ước tính phương sai.
xác suất

Câu trả lời:


8

Cập nhật 2014-01-15

Tôi nhận ra rằng tôi đã không trả lời câu hỏi ban đầu của Danica về việc biên độ sai số cho tỷ lệ được điều chỉnh gián tiếp bị vô hiệu hóa sẽ lớn hơn hay nhỏ hơn biên sai số cho cùng một tỷ lệ trong ACS. Câu trả lời là: nếu tỷ lệ danh mục công ty không khác biệt nhiều so với tỷ lệ ACS của tiểu bang, thì tỷ lệ lỗi được đưa ra dưới đây sẽ nhỏ hơn tỷ lệ lỗi ACS. Lý do: tỷ lệ gián tiếp coi số người thuộc loại công việc tổ chức (hoặc tỷ lệ tương đối) là số cố định . Ước tính ACS về tỷ lệ bị vô hiệu hóa đòi hỏi, thực tế, ước tính các tỷ lệ đó và tỷ lệ sai số sẽ tăng để phản ánh điều này.

Để minh họa, hãy viết tỷ lệ bị vô hiệu hóa như sau:

P^adj=ninpi^

trong đó là tỷ lệ bị vô hiệu hóa ước tính trong loại trong ACS.p^ii

Mặt khác, tỷ lệ ước tính ACS có hiệu lực:

P^acs=(NiN)^pi^

Trong đó và tương ứng là loại dân số và tổng số tổng thể và là tỷ lệ dân số trong loại .NiNNi/Ni

Do đó, lỗi tiêu chuẩn cho tỷ lệ ACS sẽ lớn hơn do phải ước tính ngoài .Ni/Npi

Nếu tỷ lệ loại tổ chức và tỷ lệ ước tính dân số khác nhau rất lớn, thì có thể là . Trong một ví dụ hai loại mà tôi đã xây dựng, các danh mục được biểu diễn theo tỷ lệ và . Lỗi tiêu chuẩn cho tỷ lệ ước tính bị vô hiệu hóa là .SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

Nếu tôi coi 0,7345 và 0,2655 là các giá trị cố định và (phương pháp điều chỉnh gián tiếp), , nhỏ hơn nhiều. Nếu thay vào đó, và , , tương tự như ở mức cực đoan và , . Tôi sẽ ngạc nhiên nếu tỷ lệ tổ chức và dân số khác nhau rất nhiều. Nếu họ không, tôi nghĩ rằng sẽ an toàn khi sử dụng tỷ lệ lỗi ACS như một ước tính bảo thủ, có thể rất bảo thủ về tỷ lệ lỗi thực sự.n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001S E ( P một d j ) = 0,079n2/n=0.999SE(P^adj)=0.079

Cập nhật 2014-01-2014

Câu trả lời ngắn

Theo tôi, sẽ là vô trách nhiệm khi trình bày một thống kê như vậy mà không có CI hoặc biên sai số (một nửa chiều dài CI). Để tính toán những điều này, bạn sẽ cần tải xuống và phân tích Mẫu Microdata sử dụng công cộng (PUMS) của ACS ( http://www.cencies.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Câu trả lời dài

Đây không thực sự là một trọng số lại của ACS. Nó là một phiên bản của tiêu chuẩn hóa gián tiếp, một quy trình chuẩn trong dịch tễ học (google hoặc xem bất kỳ văn bản epi nào). Trong trường hợp này, tỷ lệ khuyết tật của công việc ACS (loại) được tính theo số lượng nhân viên của loại công việc tổ chức. Điều này sẽ tính toán một số lượng người khuyết tật dự kiến ​​trong tổ chức E, có thể so sánh với số lượng quan sát được O. Số liệu thông thường để so sánh là một tỷ lệ chuẩn hóa R= (O/E). (Thuật ngữ thông thường là "SMR", cho "tỷ lệ tử vong được tiêu chuẩn hóa", nhưng ở đây "kết quả" là khuyết tật.). Rcũng là tỷ lệ của tỷ lệ khuyết tật quan sát được (O/n)và tỷ lệ tiêu chuẩn hóa gián tiếp (E/n), trong đó nsố lượng nhân viên của tổ chức.

Trong trường hợp này, dường như chỉ cần một CI cho Ehoặc E/nsẽ cần thiết, vì vậy tôi sẽ bắt đầu với điều đó:

Nếu

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Sau đó

 E = sum (n_i p_i)

Phương sai của Elà:

 var(E) = nn' V nn

trong đó nnvectơ cột của danh mục tổ chức được tính và Vlà ma trận phương sai hiệp phương sai ước tính của tỷ lệ khuyết tật loại ACS.

Ngoài ra, tầm thường, se(E) = sqrt(var(E))se(E/n) = se(E)/n.

và 90% CI cho E là

  E ± 1.645 SE(E)

Chia ncho để có được CI cho E/n.

Để ước tính, var(E)bạn sẽ cần tải xuống và phân tích dữ liệu Mẫu dữ liệu sử dụng công cộng (PUMS) của ACS ( http://www.cencies.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Tôi chỉ có thể nói về quá trình tính toán var(E)trong Stata. Vì tôi không biết nếu nó có sẵn cho bạn, tôi sẽ trì hoãn các chi tiết. Tuy nhiên, ai đó am hiểu về các khả năng khảo sát của R hoặc (có thể) SAS cũng có thể cung cấp mã từ các phương trình trên.

Khoảng tin cậy cho tỷ lệ R

Khoảng tin cậy đối với Rthông thường dựa trên giả định Poisson cho O, nhưng giả định này có thể không chính xác.

Chúng ta có thể xem xét OEđộc lập, vì vậy

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))có thể được tính là một bước Stata nữa sau khi tính toán var(E).

Theo giả định độc lập Poisson:

 var(log O) ~ 1/E(O).

Một chương trình như Stata có thể phù hợp, giả sử, một mô hình nhị thức âm hoặc mô hình tuyến tính tổng quát và cung cấp cho bạn một thuật ngữ phương sai chính xác hơn.

Khoảng 90% CI cho log R

 log R ± 1.645 sqrt(var(log R))

và các điểm cuối có thể được lũy thừa để lấy CI cho R.


Đây là một cuộc thảo luận tốt. Tuy nhiên, cuối cùng, khuyến nghị của bạn về cấp số nhân CI cho có thể dẫn đến một CI thực sự kém cho chínhRlog(R)R
whuber

Đây dường như không phải là một trường hợp bôi nhọ thích hợp, nhưng tôi có thể sai. Bạn đề nghị điều gì?
Steve Samuels

Một số phương pháp được đề cập trong CV bao gồm tăng cường CI, phương pháp delta và định hình hàm khả năng.
whuber

Cảm ơn câu trả lời của bạn. Có thể kéo dữ liệu PUMS bằng R không? Tôi không có SAS. Tôi đã lấy dữ liệu PUMS trước khi sử dụng công cụ DataFerret do điều tra dân số cung cấp, nhưng tôi không chắc rằng điều đó mang lại cho tôi bất cứ điều gì tôi có thể thao tác hữu ích trong Excel, đó là những gì tôi có. Tôi có thể cài đặt R, rõ ràng, nhưng tôi không có bất kỳ kinh nghiệm nào với nó.
DanicaE

1
Bạn được chào đón, Danica. Nếu câu trả lời này hữu ích, vui lòng nhấn vào dấu kiểm để chấp nhận chính thức. Lưu ý rằng tôi đã cập nhật câu trả lời. Tôi khuyên bạn nên trình bày các lỗi ACS dưới dạng thay thế bảo thủ cho các lỗi thích hợp.
Steve Samuels

4

FWIW có các tài nguyên tốt cho ACS và truy cập PUMS tại đây ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Ngoài ra, có một gói để xử lý dữ liệu ACS trên CRAN - được gọi là, một cách tự nhiên, ACS - mà tôi thấy thực sự hữu ích khi thực hiện những điều không điển hình với dữ liệu ACS. Đây là một bước tốt cho gói (không may là tài liệu này không trực quan lắm) - http://dusp.mit.edu/sites/all/files/attachments/publication/usiness_with_acs_R.pdf


3

thêm vào liên kết http://asdfree.com trong câu trả lời của @ pricele2..để giải quyết vấn đề này bằng phần mềm miễn phí, tôi sẽ khuyến khích bạn làm theo các bước sau:

(1) ( hai giờ làm việc chăm chỉ ) làm quen với ngôn ngữ r. xem 50 video đầu tiên, mỗi video hai phút

http://twotorials.com/

(2) ( một giờ hướng dẫn dễ dàng ) cài đặt monetdb trên máy tính của bạn

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( ba mươi phút theo hướng dẫn + tải xuống qua đêm ) tải về số tiền acs vào máy tính của bạn. chỉ nhận được những năm bạn cần.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/doad%20all%20microdata.R

(4) ( bốn giờ học và lập trình và kiểm tra công việc của bạn ) mã hóa lại các biến mà bạn cần mã hóa lại, theo bất kỳ thông số kỹ thuật nào bạn yêu cầu

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( hai giờ phân tích thực tế ) chạy lệnh chính xác mà bạn đang tìm kiếm, nắm bắt lỗi tiêu chuẩn và tính khoảng tin cậy.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( bốn giờ lập trình ) nếu bạn cần một công cụ ước tính tỷ lệ, hãy làm theo ví dụ ước tính tỷ lệ (với lỗi tiêu chuẩn được điều chỉnh theo khảo sát chính xác) tại đây:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


Cảm ơn bạn, đó là những tài nguyên tuyệt vời. Nếu bất cứ ai khác đến đây để tìm kiếm thông tin này, các hướng dẫn R mà tôi đang sử dụng là datacamp.comcoursera.org/c thuyết / rprog . Data Camp là một hướng dẫn tương tác tuyệt vời. Khóa học Coursera nặng hơn về lý thuyết / cấu trúc / tên cho mọi thứ.
DanicaE
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.