Làm cách nào để tìm mối quan hệ giữa các loại sự kiện khác nhau (được xác định bởi vị trí 2D của chúng)?

Tôi có một bộ dữ liệu các sự kiện đã xảy ra trong cùng một khoảng thời gian. Mỗi sự kiện có một loại (có ít loại khác nhau, ít hơn mười) và một vị trí, được biểu thị dưới dạng điểm 2D.

Tôi muốn kiểm tra xem có bất kỳ mối tương quan giữa các loại sự kiện, hoặc giữa loại và địa điểm. Ví dụ: có thể các sự kiện loại A thường không xảy ra khi các sự kiện loại B làm. Hoặc có thể trong một số khu vực, chủ yếu là các sự kiện loại C.

Tôi có thể sử dụng loại công cụ nào để thực hiện việc này? Là người mới trong phân tích thống kê, ý tưởng đầu tiên của tôi là sử dụng một loại PCA (Phân tích thành phần chính) trên tập dữ liệu này để xem mỗi loại sự kiện có thành phần riêng hay có thể một số chia sẻ giống nhau (nghĩa là có tương quan) không?

Tôi phải đề cập rằng tập dữ liệu của tôi có thứ tự 500.000 điểm , do đó làm cho mọi thứ khó xử lý hơn một chút. $(x, y, type)$

EDIT: Như đã lưu ý trong các câu trả lời dưới đây và các ý kiến, cách để đi là mô hình hóa điều này như một quy trình điểm được đánh dấu, và sau đó sử dụng R để thực hiện tất cả các công việc nặng, như được giải thích chi tiết trong báo cáo hội thảo này: http: / /www.csiro.edu.au/resource/Spatial-Point-Potypes-in-R.html

— Wookai
nguồn

Đây có phải là một bộ dữ liệu raster, chẳng hạn như một hình ảnh được xử lý từ xa, hoặc nó là một bộ dữ liệu không thường xuyên?

— whuber

Chà, tôi nghĩ bạn sẽ gọi nó là bất thường: đó là những bản ghi tội ác đã xảy ra ở Anh trong một tháng nhất định, có sẵn ở đây: Police.uk/data .

— Wookai

@Wookai 500.000.000 tội phạm ở Anh trong một tháng ?? Có phải tình trạng vô chính phủ giáng xuống quần đảo Anh không được báo chí nhắc đến, cuối cùng chỉ được tiết lộ trong hồ sơ của cảnh sát? :-) Tôi có thể tin khoảng 1/100 số tiền đó - hầu như không.

— whuber

Wow, tôi thực sự xin lỗi vì "lỗi đánh máy" này;)! Thực tế, nó ít hơn 1000 lần, 500.000 tội phạm (tính cả "tội ác kịch tính", tức là vé tốc độ, v.v ...).

— Wookai

Vâng, R trông con đường để đi! Tôi đã tìm thấy một báo cáo rất đầy đủ về một hội thảo về mô-đun spatstat của R, đó chính xác là những gì tôi đang tìm kiếm: csiro.edu.au/resource/Spatial-Point-Potypes-in-R.html

— Wookai

Câu trả lời:

Loại dữ liệu bạn mô tả được gọi một cách hữu dụng là "mẫu điểm được đánh dấu", R có chế độ xem nhiệm vụ cho thống kê không gian cung cấp nhiều gói tốt cho loại phân tích này, hầu hết có thể không thể xử lý loại dữ liệu khiêm tốn mà bạn có :(

Ví dụ: có thể các sự kiện loại A thường không xảy ra khi các sự kiện loại B làm. Hoặc có thể trong một số khu vực, chủ yếu là các sự kiện loại C.

Đây là hai loại câu hỏi khá khác nhau: Câu hỏi thứ hai về định vị của một loại nhãn hiệu / sự kiện. Buzzwords cần tìm trong ngữ cảnh này là ước lượng cường độ hoặc ước lượng hàm K nếu bạn muốn khám phá các mô hình phân cụm (các sự kiện có xu hướng nhóm lại với nhau) hoặc lực đẩy (các sự kiện thuộc loại có xu hướng tách rời). Đầu tiên hỏi về mối tương quan giữa các loại sự kiện khác nhau. Điều này thường được đo bằng các hàm tương quan đánh dấu.

Tôi nghĩ rằng việc lấy mẫu dữ liệu để có kích thước dữ liệu dễ điều khiển hơn là nguy hiểm (xem bình luận cho câu trả lời của @ hamner), nhưng có lẽ bạn có thể tổng hợp dữ liệu của mình: Chia cửa sổ quan sát thành một số ô có thể quản lý có kích thước bằng nhau và lập bảng số lượng sự kiện bằng nhau mỗi. Mỗi ô sau đó được mô tả bởi vị trí trung tâm của nó và 10 vectơ đếm cho 10 loại dấu của bạn. Bạn sẽ có thể sử dụng các phương thức tiêu chuẩn cho các quy trình điểm được đánh dấu trên quy trình tổng hợp này.

— fabian
nguồn

Tôi quen thuộc với các quá trình điểm được đánh dấu và một số công cụ lý thuyết liên quan, tôi nên nghĩ về điều này trước đây. Cảm ơn rất nhiều cho các từ khóa, bạn có thể có một vài gợi ý cho những từ khóa này? Cũng cảm ơn vì ý tưởng tổng hợp, tôi đã có một ý tưởng tương tự, sẽ cố gắng thực hiện điều này.

— Wookai

Peter Diggle đã viết một "địa lý dựa trên mô hình". Ông cũng có một phân tích về dữ liệu tội phạm Lancashire trên trang này: lancs.ac.uk/staff/diggle/MADE có thể cung cấp cho bạn một số ý tưởng hay.

— fabian

Đầu tiên, kích thước của tập dữ liệu. Tôi khuyên bạn nên lấy các mẫu dữ liệu nhỏ, dễ điều khiển (bằng cách chọn ngẫu nhiên N datapoint hoặc chọn ngẫu nhiên một số hình chữ nhật tương đối nhỏ trong mặt phẳng XY và lấy tất cả các điểm nằm trong mặt phẳng đó) và sau đó mài giũa kỹ thuật phân tích của bạn trên tập hợp con này. Khi bạn có ý tưởng về hình thức phân tích hoạt động, bạn có thể áp dụng nó cho các phần lớn hơn của bộ dữ liệu.

PCA chủ yếu được sử dụng như một kỹ thuật giảm kích thước; tập dữ liệu của bạn chỉ có ba chiều (một trong số đó là phân loại), vì vậy tôi nghi ngờ nó sẽ được áp dụng ở đây.

Hãy thử làm việc với Matlab hoặc R để trực quan hóa các điểm bạn đang phân tích trong mặt phẳng XY (hoặc mật độ tương đối của chúng nếu làm việc với toàn bộ tập dữ liệu), cho cả các loại riêng lẻ và tất cả các loại kết hợp và xem các mẫu nào xuất hiện trực quan. Điều đó có thể giúp hướng dẫn một phân tích nghiêm ngặt hơn.

— benhamner
nguồn

Việc này có phù hợp hay không phụ thuộc vào những gì bạn đã biết hoặc giả định về quy trình tạo dữ liệu của bạn. Lấy mẫu dữ liệu theo vùng (nghĩa là lấy tất cả các điểm trong một số cửa sổ nhỏ hơn được xác định trước) có thể nguy hiểm nếu nó không đồng nhất (vì sử dụng một cửa sổ khác sẽ thay đổi kết luận của bạn). Lấy mẫu dữ liệu mà không liên quan đến định vị cho tập huấn luyện có tác dụng "làm loãng" quá trình quan sát và làm mất hiệu lực các kết luận mà bạn có thể muốn rút ra, ví dụ như phạm vi tương quan giữa các dấu hoặc quá trình phân cụm / đẩy lùi.

— fabian

Vâng, tôi biết rằng PCA là để giảm kích thước, đây là lý do tại sao tôi bối rối về cách tôi có thể áp dụng nó vào tập dữ liệu của mình. Ý tưởng là để xem mỗi loại sự kiện có "hướng" riêng hay nếu một số "cùng hướng". Nhưng tôi đoán tôi chỉ đơn giản là suy nghĩ để tương quan.

— Wookai