Mô hình thống kê hoặc thuật toán nào có thể được sử dụng để giải quyết vấn đề John Snow Cholera?


23

Tôi quan tâm đến việc tìm hiểu cách phát triển một xấp xỉ địa lý của một loại tâm chấn dựa trên dữ liệu từ vụ dịch John Snow Cholera. Mô hình thống kê nào có thể được sử dụng để giải quyết vấn đề như vậy mà không có kiến ​​thức trước về vị trí của giếng.

Là một vấn đề chung, bạn sẽ có sẵn thời gian, vị trí của các điểm đã biết và đường đi bộ của người quan sát. Phương pháp tôi đang tìm kiếm sẽ sử dụng ba điều này để ước tính tâm chấn của "ổ dịch".


2
Mô hình Kriging được sử dụng để dự đoán địa lý. Đó có thể là một nơi để bắt đầu. Để bao gồm thông tin về thời gian, bạn sẽ cần tiến thêm một bước và sử dụng mô hình không gian tạm thời (mặc dù tôi chưa sử dụng những mô hình này).
Great38

4
@Great Kriging sẽ rất khó áp dụng ở đây: nó không nhằm mục đích ước tính cực trị, cũng không phù hợp với hình học của thời gian đi bộ dọc theo các con đường có liên quan, cũng không thích nghi tốt với việc kiểm soát các đồng biến quan trọng như mật độ dân số hoặc số lượng công nhân trong các tòa nhà.
whuber

Gói R này có thể được quan tâm github.com/lindbrook/cholera .
David C. Norris

Câu trả lời:


25

Không đưa ra một câu trả lời đầy đủ hoặc có thẩm quyền, nhưng chỉ để kích thích ý tưởng, tôi sẽ báo cáo về một phân tích nhanh mà tôi đã thực hiện cho một bài tập trong phòng thí nghiệm trong một khóa học thống kê không gian tôi đã dạy mười năm trước. Mục đích là để xem ảnh hưởng chính xác của việc tính toán các con đường di chuyển (đi bộ), so với việc sử dụng khoảng cách Euclide, sẽ có một phương pháp thăm dò tương đối đơn giản: ước tính mật độ hạt nhân. Trường hợp nào đỉnh (hoặc đỉnh) của mật độ sẽ liên quan đến máy bơm mà Snow đã xử lý?

Sử dụng một đại diện raster có độ phân giải khá cao (2946 hàng với 3160 cột) trên bản đồ của Snow (được tham chiếu đúng địa lý), tôi đã số hóa từng hàng trăm quan tài nhỏ màu đen được hiển thị trên bản đồ (tìm 558 trong số chúng tại 309 địa chỉ) cạnh của đường tương ứng với địa chỉ của nó và tóm tắt theo địa chỉ thành một số đếm tại mỗi địa điểm.

Bản đồ chấm dữ liệu đầu vào

Sau một số xử lý hình ảnh để xác định các đường phố và ngõ hẻm, tôi đã tiến hành khuếch tán Gaussian đơn giản giới hạn ở các khu vực đó (sử dụng các phương tiện tiêu cự lặp đi lặp lại trong một hệ thống GIS). Đây là KDE.

Kết quả đã nói lên điều đó - thậm chí hiếm khi cần một huyền thoại để giải thích nó. (Bản đồ cho thấy nhiều máy bơm khác, nhưng tất cả đều nằm ngoài chế độ xem này, tập trung vào các khu vực có mật độ cao nhất.)

Bản đồ của tuyết hiển thị mật độ với màu sắc.


Ôi. Vì vậy, để tóm tắt; 1. tuyến tính hóa đường đi, 2. thực hiện làm mịn theo một chiều, 3. mở rộng làm mịn theo hai chiều, 4. trung bình kde trên các chuyến đi đường?
cylondude

1
Việc làm mịn được thực hiện ở dạng 2D, nhưng bị giới hạn ở vùng hiển thị màu. Có nhiều cách khác để làm điều đó, giống như mô tả của bạn. Tuy nhiên, không cần phải tính trung bình trên "các chuyến đi" (bất kể đó là những chuyến đi nào). Bản đồ này thú vị một phần vì nó chia sẻ các thuộc tính của cả hình học một và hai chiều.
whuber

Đối với mỗi điểm A trên đường phố, hãy đếm số bước cho điểm B khác trong số các vị trí địa chỉ. Cắm số bước đó vào mật độ Gaussian và nhân giá trị đó với số người chết tại B. Thêm tất cả các sản phẩm đó (tức là trên tất cả các điểm địa chỉ B) để lấy mật độ hạt nhân tại điểm A. Làm điều đó cho tất cả các điểm A trên đường phố Đó là mật độ chúng ta đang thấy ở mỗi điểm trên bản đồ. Vâng?
Hatshepsut

2
@Hatshepsut Đó là một đề xuất hợp lý. Những gì tôi đã làm chỉ là một chút khác biệt. Đối với mỗi điểm trên các vị trí địa chỉ (nguồn), tôi đã tạo một hàm Gaussian về khoảng cách đi bộ từ điểm đó như bạn mô tả, và sau đó tôi đã chuẩn hóa nó để tích phân của nó trên lưới đường phố sẽ bằng với số đếm tại vị trí nguồn đó. Theo cách này, mỗi cái chết được "lây lan" vào khu phố của nó. Các giá trị này được tổng hợp trên tất cả các vị trí nguồn để tạo ra hình ảnh được hiển thị. B
whuber

2
@Hat Không phải là trường hợp Gaussian có tích phân đơn vị khi bị giới hạn ở đường và lối đi! Do đó nó bị cắt cụt và phải được tái chuẩn hóa.
whuber

19

Trong [1, §3.2], David Freedman cho thấy một chất âm câu trả lời cho câu hỏi của bạn. Đó là, không có mô hình thống kê hoặc thuật toán thống kê nào có thể giải quyết vấn đề của John Snow. Vấn đề của Snow là phát triển một lập luận phê phán ủng hộ lý thuyết của ông rằng dịch tả là một bệnh truyền nhiễm do nước gây ra, chống lại lý thuyết miasma phổ biến trong thời đại của ông. (Chương 3 trong [1], có tiêu đề Mô hình thống kê và Giày da, có sẵn ở dạng đã xuất bản trước đây [2] tại đây .)

Trong vài trang ngắn này [1, tr.47 Ném53], phần lớn trong số đó là một trích dẫn mở rộng từ chính John Snow, Freedman lập luận rằng "những gì Snow thực sự đã làm vào năm 1853 Ném54 thậm chí còn thú vị hơn cả truyện ngụ ngôn [của Broad Bơm đường phố]. " Theo như bằng chứng thống kê thống kê (các sơ khảo khác như xác định trường hợp chỉ số, v.v., được thảo luận bên cạnh), Snow đã khai thác biến thể tự nhiên để thực hiện một thí nghiệm gần như thực sự đáng chú ý.

Nó chỉ ra rằng vào thời điểm trước đó, có một sự cạnh tranh mạnh mẽ giữa các công ty cấp nước ở London và điều này dẫn đến sự pha trộn không gian của nguồn cung cấp nước (theo cách nói của Snow) "thuộc loại thân mật nhất".

Các đường ống của mỗi Công ty đi xuống tất cả các đường phố, và vào gần như tất cả các tòa án và ngõ nhỏ. Một vài ngôi nhà được cung cấp bởi một Công ty và một số ít bởi một Công ty khác, theo quyết định của chủ sở hữu hoặc người thuê nhà tại thời điểm đó khi các Công ty Nước đang cạnh tranh tích cực.

...

Vì không có sự khác biệt nào trong nhà hoặc người dân nhận được sự cung cấp của hai Công ty Nước, hoặc trong bất kỳ điều kiện vật lý nào mà họ bị bao vây, rõ ràng là không có thí nghiệm nào có thể được đưa ra để kiểm tra kỹ lưỡng hơn ảnh hưởng của việc cung cấp nước đến sự tiến triển của bệnh tả hơn thế này, hoàn cảnh được đặt sẵn trước người quan sát.

TuyếtJohn

Một phần cực kỳ quan trọng khác của "biến thiên tự nhiên" John Snow khai thác trong thí nghiệm gần đây này là một công ty nước có lượng nước của nó ở hạ lưu sông Thames , trong khi công ty kia đã vài năm trước khi di chuyển vào thượng nguồn . Tôi sẽ cho bạn đoán đó là cái gì từ bảng dữ liệu của John Snow!

                     | Số lượng | Dịch tả | Tử vong mỗi
Công ty | nhà ở | tử vong | 10.000 căn nhà
-------------------------------------------------- --------
Southwark & ​​Vauxhall | 40.046 | 1263 | 315
Lambeth | 26.107 | 98 | 37
Phần còn lại của Luân Đôn | 256,423 | 1422 | 59

Như Freedman ghi chú héo úa,

Là một phần của công nghệ thống kê, [bảng trên] không có nghĩa là đáng chú ý. Nhưng câu chuyện nó kể rất thuyết phục. Sức mạnh của cuộc tranh luận là kết quả của sự rõ ràng của lý do trước đó, tập hợp nhiều bằng chứng khác nhau và số lượng giày da mà Snow sẵn sàng sử dụng để lấy dữ liệu. [1, tr.51]

Một điểm nữa của biến thiên tự nhiên được khai thác bởi Snow xảy ra theo chiều thời gian : việc di chuyển lượng nước đã nói ở trên xảy ra giữa hai dịch bệnh, cho phép Snow so sánh nước của cùng một công ty với và không cần thêm nước thải. (Cảm ơn Philip B. Stark, một tác giả của [1], về thông tin này qua Twitter . Xem bài giảng trực tuyến này của anh ấy.)


Vấn đề này cũng cung cấp một nghiên cứu mang tính hướng dẫn trong sự tương phản giữa chủ nghĩa khấu trừquy nạp , như được thảo luận trong câu trả lời này .

  1. Freedman D, Collier D, Sekhon JS, PB Stark. Mô hình thống kê và suy luận nguyên nhân: Đối thoại với khoa học xã hội. Cambridge; New York: Nhà xuất bản Đại học Cambridge; 2010.

  2. Người tự do DA. Mô hình thống kê và da giày. Phương pháp xã hội học . 1991; 21: 29-13. doi: 10.2307 / 270939. Toàn văn


1
+1 để chỉ ra rằng chỉ xác định một tâm chấn sẽ không đủ để giải quyết "vấn đề của John Snow" như đã nêu. Lý thuyết Miasma là một trong những lý thuyết phổ biến vào thời điểm đó như David chỉ ra. Để làm sai lệch lý thuyết khí độc, người ta sẽ phải chỉ ra rằng tỷ lệ địa lý không tăng lên gần với dòng sông. Một cách tiếp cận hiện đại cho vấn đề này có thể đã sử dụng kỹ thuật giết người.
AdamO

Cảm ơn, @AdamO; nhưng tôi tự hỏi làm thế nào Kriging sẽ phù hợp với sự pha trộn không gian "thân mật" trong trường hợp này, điều này gần như là một sự đối mặt với sự liên tục cần thiết để áp dụng một kỹ thuật nội suy (như tôi hiểu Kriging là gì).
David C. Norris

Có lẽ tôi đã hiểu sai lời của Snow: giả định của tôi là "sự pha trộn mật thiết [nguồn cung cấp máy bơm nước]" đề cập đến một thiết kế khối gần như hoàn hảo, trong đó, phân tầng theo khoảng cách từ dòng sông, mỗi tầng tầng đồng tâm của các khối thành phố có ít nhất một vài máy bơm của các nhà cung cấp A, B, C ... điều này có liên quan đến việc hỗ trợ lý thuyết rằng nước bị ô nhiễm gây ra dịch tả. Kriging sẽ bác bỏ giả thuyết về khí độc bằng cách chỉ ra rằng sự gần gũi với dòng sông không liên quan đến tỷ lệ mắc bệnh tả. Điều này được hỗ trợ bởi những người tưới nước tại máy bơm: miasma không di chuyển bằng đường ống.
AdamO

2
@AdamO Trên thực tế, William Farr đã nghiên cứu tỷ lệ tử vong cho bệnh tả (từ năm 1849) và so sánh chúng với độ cao trên sông Thames. Sự tương ứng giữa các biến đó là nổi bật và gần như hoàn hảo phù hợp với dự đoán từ lý thuyết miasma. Xem Langmuir AD. Đánh giá vi khuẩn 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). Bài báo này lưu ý rằng ngay cả khi bác sĩ Snow qua đời vào năm 1858, lý thuyết của ông "không được chấp nhận trong giới chính thức."
whuber

1
Rất cám ơn cho những tài liệu tham khảo, @whuber. Bằng cách giám tuyển, tôi lưu ý bài viết Langmuir là truy cập mở .
David C. Norris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.