Làm cách nào tôi có thể mô phỏng microdata điều tra dân số cho các khu vực nhỏ bằng cách sử dụng mẫu microdata 1% ở quy mô lớn và thống kê tổng hợp ở quy mô khu vực nhỏ?

Tôi muốn thực hiện phân tích đa biến cấp độ cá nhân ở các cấp độ tổng hợp địa lý nhỏ (các quận thu thập điều tra dân số Úc). Rõ ràng, điều tra dân số không có sẵn ở các cấp độ tổng hợp nhỏ này vì lý do riêng tư vì vậy tôi đang điều tra các lựa chọn thay thế khác. Hầu như tất cả các biến quan tâm là phân loại. Tôi có hai bộ dữ liệu theo ý của tôi:

Mẫu điều tra dân số 1% có sẵn ở mức độ tổng hợp không gian lớn hơn nhiều (một khu vực có dân số ~ 190.000 và sự phân chia không gian rộng lớn về nhân khẩu học).
Các bảng tần suất cho các biến tôi quan tâm ở cấp độ khu vực nhỏ (500 khu vực nhỏ, trung bình pop = 385, sd = 319, trung vị = 355).

Làm cách nào tôi có thể sử dụng hai bộ dữ liệu này để mô phỏng phân bố dân số ở cấp độ khu vực nhỏ gần nhất có thể với dân số thực tế của khu vực nhỏ?

Tôi đánh giá cao rằng có thể có các phương pháp thường xuyên để làm điều này; nếu vậy một con trỏ đến một cuốn sách giáo khoa hoặc các bài báo tạp chí có liên quan sẽ được đánh giá rất cao.

— dấu ấn
nguồn

có thể liên quan (tôi đang gặp vấn đề tương tự): stats.stackexchange.com/questions/14399/ lấy mẫu Gibbs có thể là những gì cần thiết ở đây.

— mzuba

Bạn có thể muốn đặt câu hỏi của mình trên danh sách gửi thư SRMSNET của Hiệp hội Thống kê Hoa Kỳ. Nếu bạn ở Úc, tôi sẽ tiếp cận Ray Chambers - tôi đoán không ai biết SAE tốt hơn anh ta ở Nam bán cầu :).

— StasK

Vấn đề này liên quan chặt chẽ đến "ánh xạ dasymetric."

— whuber

Tôi đồng ý với @whuber và ánh xạ dasymetric có thể được quan tâm để đánh dấu cho các tài liệu chủ đề là tốt. Thật không may, nó phần lớn tách biệt với tài liệu suy luận sinh thái mà tôi đã trích dẫn trong câu trả lời của mình (tôi không muốn chồng chất nhiều tài liệu hơn!) Bạn nghĩ gì về fmark?

— Andy W

Một số kỹ thuật ánh xạ dasymetric đã bắt đầu sử dụng dữ liệu phụ trợ để cố gắng nội suy dữ liệu đến các khu vực nhỏ hơn. Các mục tiêu của suy luận sinh thái và lập bản đồ dasymetric có phần khác nhau (hơi giống với sự khác biệt giữa dự đoán / dự báo và suy luận). Tôi sẽ viết một bài đăng khác trên những nguồn mà tôi đã thu thập được mà tôi nghĩ cũng sẽ được quan tâm. Thật không may, tôi không thể đưa ra lời khuyên hữu ích hơn nhiều so với trích dẫn một loạt các tài liệu. Đây là một chủ đề đương đại phổ biến, và hy vọng bạn có thể đóng góp cho nó!

— Andy W

Câu trả lời:

Ánh xạ phân tích chủ yếu tập trung vào việc nội suy các ước tính dân số đến các khu vực nhỏ hơn có sẵn trong dữ liệu hiện đang phổ biến (xem câu hỏi này để biết một loạt các tài liệu tham khảo hữu ích về chủ đề này). Thường thì điều này được thực hiện bằng cách đơn giản xác định các khu vực (dựa trên đặc điểm đất đai) trong đó rõ ràng không có dân số tồn tại, và sau đó ước tính lại mật độ dân số (bao gồm các khu vực đó). Một ví dụ có thể là nếu có một vùng nước trong thành phố, một ví dụ khác có thể là nếu bạn xác định các lô đất công nghiệp không thể có dân cư. Các cách tiếp cận gần đây hơn về lập bản đồ dasymetric kết hợp các dữ liệu phụ trợ khác trong khung xác suất để phân bổ các ước tính dân số (Kyriakidis, 2004; Liu và cộng sự, 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Bây giờ thật dễ dàng để thấy mối quan hệ với câu hỏi của bạn trong tầm tay. Bạn muốn ước tính dân số của các khu vực nhỏ. Nhưng, cũng nên rõ ràng làm thế nào nó có thể giảm các mục tiêu của bạn. Bạn không chỉ muốn dữ liệu dân số, mà cả đặc điểm của các quần thể đó. Một trong những thuật ngữ được sử dụng để mô tả tình huống này là sự thay đổi của vấn đề hỗ trợ (Cressie, 1996; Gotway & Young, 2002). Mượn từ tài liệu địa lý trong đó người ta cố gắng đưa ra dự đoán về một đặc điểm nhất định trên một khu vực rộng từ các mẫu điểm, công việc gần đây đã cố gắng nội suy dữ liệu khu vực đến các vùng mục tiêu khác nhau. Phần lớn công việc của Pierre Goovaerts tập trung vào các phương pháp giết người theo khu vực như vậy, một bài báo gần đây trên tạp chí Phân tích địa lý có một số ví dụ về phương pháp áp dụng các tài liệu chủ đề khác nhau (Hained et al., 2010), và một trong những ứng dụng yêu thích của tôi về nó là trong bài viết này (Young et al., 2009).

Những gì tôi trích dẫn hầu như không nên được coi là thuốc chữa bách bệnh cho vấn đề này. Cuối cùng, nhiều vấn đề tương tự với suy luận sinh thái và sai lệch tổng hợp cũng áp dụng cho các mục tiêu của phép nội suy diện tích. Có vẻ như nhiều mối quan hệ giữa dữ liệu cấp vi mô đơn giản bị mất trong quá trình tổng hợp và các kỹ thuật nội suy như vậy sẽ không thể phục hồi chúng. Ngoài ra, quá trình dữ liệu được nội suy theo kinh nghiệm (thông qua ước lượng các biến thể từ dữ liệu mức tổng hợp) thường có đầy đủ các bước đặc biệt khiến quá trình trở nên nghi ngờ (Goovaerts, 2008).

Thật không may, tôi đăng bài này trong một câu trả lời riêng vì tài liệu suy luận sinh thái và tài liệu về lập bản đồ dasymetric và kuceing khu vực-điểm là không chồng chéo. Mặc dù các tài liệu về suy luận sinh thái có nhiều ý nghĩa đối với các kỹ thuật này. Không chỉ các kỹ thuật nội suy chịu thiên vị tổng hợp, mà các kỹ thuật đo độ thông minh (sử dụng dữ liệu tổng hợp để phù hợp với các mô hình để dự đoán các khu vực nhỏ hơn) có khả năng nghi ngờ sai lệch tổng hợp. Kiến thức về các tình huống xảy ra sai lệch tập hợp sẽ làm sáng tỏ các tình huống trong đó nội suy khu vực và ánh xạ dasymetric sẽ thất bại phần lớn (đặc biệt là liên quan đến việc xác định mối tương quan giữa các biến khác nhau ở cấp độ phân tách).

Trích dẫn

— Andy W
nguồn

Cảm ơn về điểm khởi đầu hữu ích trong văn học đương đại - Tôi đã không nhận thức được các phương pháp dasymetric đã làm nhiều hơn mật độ dân số, vì vậy tôi sẽ háo hức xem xét điều này.

— đánh dấu

Tác phẩm của Gary King, đặc biệt là cuốn sách "Giải pháp cho vấn đề suy luận sinh thái" (hai chương đầu tiên có sẵn ở đây ), sẽ được quan tâm (cũng như phần mềm đi kèm mà ông sử dụng cho suy luận sinh thái). King chỉ ra trong cuốn sách của mình cách ước tính các mô hình hồi quy sử dụng dữ liệu tổng hợp có thể được cải thiện bằng cách kiểm tra các giới hạn tiềm năng của các nhóm cấp thấp hơn dựa trên dữ liệu tổng hợp có sẵn. Thực tế là dữ liệu của bạn chủ yếu là các nhóm phân loại làm cho chúng phù hợp với kỹ thuật này. (Mặc dù không bị lừa, nhưng đó không phải là một giải pháp omnibus như bạn có thể hy vọng được trao danh hiệu!) Nhiều công việc hiện tại tồn tại, nhưng cuốn sách của King là IMO là nơi tốt nhất để bắt đầu.

Một khả năng khác sẽ chỉ là đại diện cho giới hạn tiềm năng của dữ liệu (trong bản đồ hoặc đồ thị). Vì vậy, ví dụ bạn có thể có phân phối giới tính được báo cáo ở cấp độ tổng hợp (giả sử 5.000 nam và 5.000 nữ) và bạn biết mức tổng hợp này bao gồm 2 đơn vị diện tích nhỏ khác nhau gồm 9.000 và 1.000 cá nhân. Sau đó, bạn có thể biểu diễn điều này như một bảng dự phòng của biểu mẫu;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000

Mặc dù bạn không có thông tin trong các ô cho các tập hợp cấp thấp hơn, từ tổng số biên chúng ta có thể xây dựng các giá trị tiềm năng tối thiểu hoặc tối đa cho mỗi ô. Vì vậy, trong ví dụ này, Men X Unit1ô chỉ có thể lấy các giá trị trong khoảng 4.000 đến 5.000 (Bất cứ khi nào các phân phối biên không đồng đều hơn, khoảng nhỏ hơn các giá trị có thể mà các ô sẽ lấy). Rõ ràng việc đạt được giới hạn của bảng khó khăn hơn tôi mong đợi ( Dobra & Fienberg, 2000 ), nhưng có vẻ như một chức năng có sẵn trong eiPackthư viện trong R ( Lau et al., 2007, p. 43 ).

Phân tích đa biến với dữ liệu mức tổng hợp là khó khăn, vì sự sai lệch tổng hợp chắc chắn xảy ra với loại dữ liệu này. (Tóm lại, tôi chỉ mô tả xu hướng tổng hợp vì nhiều quy trình tạo dữ liệu cấp độ cá nhân khác nhau có thể dẫn đến các hiệp hội cấp độ tổng hợp) Một loạt các bài viết trong Tạp chí Xã hội học Hoa Kỳtrong những năm 1970 là một số tài liệu tham khảo yêu thích của tôi cho các chủ đề (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) mặc dù các nguồn kinh điển về chủ đề này có thể là (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Tôi nghĩ rằng việc đại diện cho các giới hạn tiềm năng mà dữ liệu có thể có khả năng gây ra, mặc dù bạn thực sự bị cản trở bởi những hạn chế của dữ liệu tổng hợp để tiến hành phân tích đa biến. Điều đó không ngăn cản bất cứ ai làm điều đó mặc dù trong khoa học xã hội (vì tốt hơn hay tồi tệ hơn!)

Lưu ý, (như Charlie đã nói trong các bình luận) rằng "giải pháp" của King đã nhận được một lượng lớn bệnh viêm phổi (Anselin & Cho, 2002; Freedman et al., 1998). Mặc dù những người mắc bệnh này không nói gì về toán học của phương pháp King, nhưng liên quan đến những tình huống trong đó phương pháp của King vẫn không giải thích được cho sự thiên lệch tổng hợp (và tôi đồng ý với cả Freedman và Anselin về các tình huống trong đó dữ liệu cho khoa học xã hội vẫn còn nghi ngờ là phổ biến hơn nhiều so với những khoa học đáp ứng các giả định của King). Đây là một phần lý do tại sao tôi khuyên bạn chỉ nên kiểm tra giới hạn (không có gì sai với điều đó), nhưng việc suy luận về mối tương quan cấp độ cá nhân từ dữ liệu đó sẽ có nhiều bước nhảy vọt về niềm tin mà cuối cùng là không chính đáng trong hầu hết các tình huống.

Trích dẫn

— Andy W
nguồn

Lưu ý rằng những người khác đã chỉ trích cách tiếp cận của King đối với vấn đề ngụy biện sinh thái; David Freedman là một ví dụ đáng chú ý. Đây là câu trả lời mà Freedman và các đồng tác giả của ông dành cho cuốn sách của King được trích dẫn ở trên: citeseerx.ist.psu.edu/viewdoc/ trộm Tất nhiên, King có phản hồi và Freedman et al. có phản hồi với phản hồi cho phản hồi ... Tôi hoàn toàn không thể hiểu được bạn đang cố gắng làm gì và bạn có dữ liệu gì, nhưng tôi thường rất nghi ngờ về các phân tích kiểu suy luận sinh thái.

— Charlie

Có @Charlie Tôi đồng ý (và tôi đặc biệt thích Freedman nói về vấn đề nói chung). Đó là một phần lý do tôi chỉ ra tài liệu chung về xu hướng tổng hợp ở cuối bài. Tôi không chắc ý của bạn là gì bởi câu nói "Tôi không thể hiểu được bạn đang cố gắng làm gì và bạn có dữ liệu gì, nhưng tôi thường rất nghi ngờ về các phân tích kiểu suy luận sinh thái", đây là Liên quan đến Nhà vua và Freedman đều phàn nàn về việc không chia sẻ dữ liệu?

— Andy W

@Andy, Kỹ thuật này có giống với những gì các nhà kinh tế biết là phân phối được xác định một phần ( springer.com/statistic/statistic+theory+and+methods/book/ không)?

— StasK

@Andy, Không, xin lỗi vì sự mơ hồ. Tôi đã thực sự nói chuyện với OP. Nếu anh ta có bảng tần số ở khu vực nhỏ và muốn lấy số liệu thống kê ở cấp khu vực nhỏ, thì còn thiếu gì? Tôi đoán rằng anh ta phải có lề, nhưng không có nội dung ô, như bạn đề xuất trong bài viết của mình.

— Charlie

@StasK, tôi không biết. Tôi sẽ kiểm tra xem King có đưa ra bất kỳ tham chiếu nào đến Manski vào cuối tuần này khi tôi có quyền truy cập vào cuốn sách không. Có khả năng một số chồng chéo đưa ra suy luận sinh thái được đề cập trong bản tóm tắt. Một nguồn tiềm năng (miễn phí) khác để khám phá mối liên kết giữa hai người có thể là độc giả King đã chỉnh sửa trên "Phương pháp mới trong suy luận sinh thái" ( đăng toàn bộ trên trang web của mình)

— Andy W

Tôi không chắc chắn có một câu trả lời được xác định rõ ràng trong tài liệu này, vì tìm kiếm Google cung cấp về cơ bản ba tài liệu tham khảo có thể sử dụng về ước tính diện tích nhỏ đa biến. Pfeffermann (2002) thảo luận về các biến trả lời riêng biệt trong phần 4 của bài báo, nhưng đây sẽ là các mô hình đơn biến. Tất nhiên, với các phương pháp Bayes phân cấp ( Rao 2003, Ch. 10 ), bạn có thể làm bất kỳ điều kỳ diệu nào, nhưng nếu cuối cùng bạn thấy mình chỉ sao chép các linh mục của mình (vì bạn có quá ít dữ liệu), điều này sẽ rất tệ kết quả của bài tập mô phỏng của bạn. Bên cạnh đó, Rao chỉ xử lý các biến liên tục.

Tôi đoán thách thức lớn nhất sẽ là phân rã ma trận hiệp phương sai thành các thành phần giữa và trong khu vực nhỏ. Với mẫu 1%, bạn sẽ chỉ có 3 quan sát từ SAE của mình, do đó khó có thể có được ước tính ổn định của thành phần bên trong.

Nếu tôi ở trong đôi giày của bạn, tôi sẽ thử một phần mở rộng đa biến của mô hình Pfeffermann với hiệu ứng ngẫu nhiên đa biến của khu vực nhỏ. Bạn thực sự có thể kết thúc với một mô hình Bayes phân cấp cho việc này, nếu không có gì hoạt động dựa trên thiết kế.

CẬP NHẬT (để giải quyết nhận xét của Andy cho câu trả lời này): các phương pháp bootstrap để ước tính diện tích nhỏ ( Lahiri 2003 ) đặc biệt tái tạo một dân số hợp lý từ nghiên cứu. Mặc dù trọng tâm của bài tập bootstrap là ước tính phương sai của các ước tính diện tích nhỏ, các thủ tục nên được quan tâm và liên quan đến vấn đề được đăng.

— StasK
nguồn

Tôi sẽ không đánh giá tình trạng của một tài liệu dựa trên tìm kiếm google. Tôi không chắc chắn ước tính diện tích nhỏ là những gì tác giả sẽ tìm kiếm trong trường hợp này. Theo tôi hiểu, tài liệu tập trung vào việc đưa ra dự đoán về các đặc điểm trong các khu vực nhỏ ( Kriegler & Berk, 2010 ) hoặc ước tính các tham số trong các mô hình đa cấp dựa trên số lượng mẫu thưa thớt trên mỗi đơn vị tổng hợp.

— Andy W

Tôi không chắc chắn ước tính diện tích nhỏ là những gì tôi muốn làm. Theo tôi hiểu, ước tính diện tích nhỏ tìm cách đi từ một vài mẫu trong một khu vực nhỏ để tổng hợp số liệu thống kê tóm tắt. Tôi đang tìm kiếm điều ngược lại (để đi từ phân bố dân số diện tích lớn và thống kê tổng hợp diện tích nhỏ sang dân số diện tích nhỏ mô phỏng). Lahiri 2003 có vẻ như là một điểm khởi đầu tốt ở đây.

— đánh dấu