Tác phẩm của Gary King, đặc biệt là cuốn sách "Giải pháp cho vấn đề suy luận sinh thái" (hai chương đầu tiên có sẵn ở đây ), sẽ được quan tâm (cũng như phần mềm đi kèm mà ông sử dụng cho suy luận sinh thái). King chỉ ra trong cuốn sách của mình cách ước tính các mô hình hồi quy sử dụng dữ liệu tổng hợp có thể được cải thiện bằng cách kiểm tra các giới hạn tiềm năng của các nhóm cấp thấp hơn dựa trên dữ liệu tổng hợp có sẵn. Thực tế là dữ liệu của bạn chủ yếu là các nhóm phân loại làm cho chúng phù hợp với kỹ thuật này. (Mặc dù không bị lừa, nhưng đó không phải là một giải pháp omnibus như bạn có thể hy vọng được trao danh hiệu!) Nhiều công việc hiện tại tồn tại, nhưng cuốn sách của King là IMO là nơi tốt nhất để bắt đầu.
Một khả năng khác sẽ chỉ là đại diện cho giới hạn tiềm năng của dữ liệu (trong bản đồ hoặc đồ thị). Vì vậy, ví dụ bạn có thể có phân phối giới tính được báo cáo ở cấp độ tổng hợp (giả sử 5.000 nam và 5.000 nữ) và bạn biết mức tổng hợp này bao gồm 2 đơn vị diện tích nhỏ khác nhau gồm 9.000 và 1.000 cá nhân. Sau đó, bạn có thể biểu diễn điều này như một bảng dự phòng của biểu mẫu;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Mặc dù bạn không có thông tin trong các ô cho các tập hợp cấp thấp hơn, từ tổng số biên chúng ta có thể xây dựng các giá trị tiềm năng tối thiểu hoặc tối đa cho mỗi ô. Vì vậy, trong ví dụ này, Men X Unit1
ô chỉ có thể lấy các giá trị trong khoảng 4.000 đến 5.000 (Bất cứ khi nào các phân phối biên không đồng đều hơn, khoảng nhỏ hơn các giá trị có thể mà các ô sẽ lấy). Rõ ràng việc đạt được giới hạn của bảng khó khăn hơn tôi mong đợi ( Dobra & Fienberg, 2000 ), nhưng có vẻ như một chức năng có sẵn trong eiPack
thư viện trong R ( Lau et al., 2007, p. 43 ).
Phân tích đa biến với dữ liệu mức tổng hợp là khó khăn, vì sự sai lệch tổng hợp chắc chắn xảy ra với loại dữ liệu này. (Tóm lại, tôi chỉ mô tả xu hướng tổng hợp vì nhiều quy trình tạo dữ liệu cấp độ cá nhân khác nhau có thể dẫn đến các hiệp hội cấp độ tổng hợp) Một loạt các bài viết trong Tạp chí Xã hội học Hoa Kỳtrong những năm 1970 là một số tài liệu tham khảo yêu thích của tôi cho các chủ đề (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) mặc dù các nguồn kinh điển về chủ đề này có thể là (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Tôi nghĩ rằng việc đại diện cho các giới hạn tiềm năng mà dữ liệu có thể có khả năng gây ra, mặc dù bạn thực sự bị cản trở bởi những hạn chế của dữ liệu tổng hợp để tiến hành phân tích đa biến. Điều đó không ngăn cản bất cứ ai làm điều đó mặc dù trong khoa học xã hội (vì tốt hơn hay tồi tệ hơn!)
Lưu ý, (như Charlie đã nói trong các bình luận) rằng "giải pháp" của King đã nhận được một lượng lớn bệnh viêm phổi (Anselin & Cho, 2002; Freedman et al., 1998). Mặc dù những người mắc bệnh này không nói gì về toán học của phương pháp King, nhưng liên quan đến những tình huống trong đó phương pháp của King vẫn không giải thích được cho sự thiên lệch tổng hợp (và tôi đồng ý với cả Freedman và Anselin về các tình huống trong đó dữ liệu cho khoa học xã hội vẫn còn nghi ngờ là phổ biến hơn nhiều so với những khoa học đáp ứng các giả định của King). Đây là một phần lý do tại sao tôi khuyên bạn chỉ nên kiểm tra giới hạn (không có gì sai với điều đó), nhưng việc suy luận về mối tương quan cấp độ cá nhân từ dữ liệu đó sẽ có nhiều bước nhảy vọt về niềm tin mà cuối cùng là không chính đáng trong hầu hết các tình huống.
Trích dẫn
- Anselin, L. & WKT Cho (2002). Hiệu ứng không gian và suy luận sinh thái. Phân tích chính trị 10 (3): 276-297.
- Dobra A. & SE Fienberg (2000). Giới hạn cho các mục nhập ô trong bảng dự phòng cho tổng số biên và đồ thị có thể phân tách. Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia 97 (22): 11885-11892
- Firebaugh, G. (1978). Một quy tắc để suy ra các mối quan hệ cá nhân từ dữ liệu tổng hợp. Tạp chí Xã hội học Hoa Kỳ 43 (4): 557-572
- Fotheringham, AS & DW Wong (1991). Vấn đề đơn vị diện tích có thể thay đổi trong phân tích thống kê đa biến. Môi trường và Quy hoạch A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland, & MR Roberts (1998). Các tác phẩm được đánh giá: Một giải pháp cho vấn đề suy luận sinh thái của G. King. Tạp chí của Hiệp hội Thống kê Hoa Kỳ 93 (444): 1518-1522. (PDF tại đây )
- Hammond, JL (1973) Hai nguồn lỗi trong tương quan sinh thái. Tạp chí Xã hội học Hoa Kỳ 38 (6): 764-777
- Hannan, MT & L. Burstein (1974). Ước tính từ các quan sát được nhóm lại. Tạp chí Xã hội học Hoa Kỳ 39 (3): 374-92
- Vua G. (1997). Giải pháp cho vấn đề suy luận sinh thái: Tái cấu trúc hành vi cá nhân từ dữ liệu tổng hợp . Princeton: Nhà xuất bản Đại học Princeton.
- Lau O., RT Moore & M. Kellerman (2007). eiPack: Suy luận sinh thái RXC và quản lý dữ liệu kích thước cao hơn. R Tin 7 (2): 43-47
- Oppenshaw, S. (1984). Bài toán đơn vị diện tích có thể điều chỉnh . Norwich: Sách địa lý. ( PDF tại đây )
- Robinson, WS (1950). Tương quan sinh thái và hành vi của cá nhân. Tạp chí Xã hội học Hoa Kỳ 15 (3): 351-357. ( PDF tại đây )