Điều đó có nghĩa là gì khi tất cả các cạnh trong mạng / đồ thị trong thế giới thực đều có khả năng xảy ra tình cờ?


11

Tôi đã sử dụng phương pháp trích xuất mạng đường trục được nêu trong bài viết này: http://www.pnas.org/content/106/16/6483.abab

Về cơ bản, các tác giả đề xuất một phương pháp dựa trên số liệu thống kê tạo ra xác suất, cho mỗi cạnh trong biểu đồ, rằng cạnh đó có thể xảy ra chỉ là tình cờ. Tôi sử dụng ngưỡng ý nghĩa thống kê điển hình là 0,05.

Tôi đã áp dụng phương pháp này cho một số mạng trong thế giới thực và thú vị là một số mạng cuối cùng không có cạnh nào đáng kể. Tôi đang cố gắng để hiểu những gì điều này đòi hỏi cho mạng. Lần khác tôi đã áp dụng phương pháp này cho một mạng và không có cạnh nào đáng kể là khi tôi áp dụng phương pháp này cho các mạng ngẫu nhiên mà tôi tạo ra, đó chính xác là những gì chúng ta mong đợi.

Ví dụ như mạng thế giới thực, bạn có thể đã thấy hình ảnh mạng gần đây đã xuất hiện trên The economist cho thấy sự phân cực của Thượng viện Hoa Kỳ trong 25 năm qua: http://www.economist.com/news/united-states/21591190 -united-state-amip . Tôi đã áp dụng phương pháp trích xuất mạng đường trục cho các mạng đó và không có cạnh nào đáng kể. Mặc dù các cạnh thô rõ ràng cho thấy sự gắn kết và phân cụm ưu đãi, đây có phải chỉ là tình cờ? Là mạng lưới bỏ phiếu Thượng viện về cơ bản là ngẫu nhiên?

Câu trả lời:


6

Giả thuyết khống đằng sau các phương pháp xương sống là

[Các] trọng số chuẩn hóa tương ứng với các kết nối của một nút độ k nhất định được tạo bởi một phép gán ngẫu nhiên từ một phân phối đồng đều.

Nếu không có bất kỳ cạnh "đáng kể" nào, giả thuyết null giữ cho toàn bộ biểu đồ, nghĩa là, trọng số cạnh là kết quả của xu hướng nút để gửi và nhận quan hệ.

Tùy thuộc vào các mối quan hệ bạn đang phân tích, phương pháp xương sống có thể không phù hợp. Phương pháp này hoạt động tốt nhất cho các mạng là các mạng có trọng số một chế độ. Mạng hai chế độ có thể được dự kiến ​​là mạng một chế độ có trọng số, nhưng thường không có ý nghĩa gì để làm như vậy.

Dựa vào ví dụ của bạn trong Chuyên gia kinh tế, sẽ không có ý nghĩa gì khi phân tích bỏ phiếu của Thượng viện dưới dạng mạng một chế độ được cân nhắc bởi số lượng phiếu bầu được chia sẻ. Bỏ phiếu tại Thượng viện là mối quan hệ hai chế độ đã ký. Các thượng nghị sĩ (i) có mối quan hệ với một bộ luật (j) và họ không bỏ phiếu (0) hoặc họ bỏ phiếu cho (+1) hoặc chống lại (-1) luật. Để chuyển đổi mạng thành mạng thỏa thuận một chế độ có trọng số, sau đó thực hiện phân tích đường trục trên mạng sẽ giảm dữ liệu nghiêm trọng. Một số phần của pháp luật gây chia rẽ về mặt chính trị và một số phần có nhiều phiếu hơn các phần khác - các phương pháp xương sống sẽ không nắm bắt được các cơ chế này.

Bạn có thể muốn xem xét các thử nghiệm Đồ thị thống nhất có điều kiện (CUG) thay vì các phương pháp xương sống. Ý tưởng đằng sau các thử nghiệm này là để xác định xem các thuộc tính mức đồ thị nhất định (ví dụ: phân cụm, độ dài đường dẫn trung bình, tập trung hóa, đồng nhất) có phải là do tình cờ hay không. Quá trình này như sau:

  1. Lấy số đo f từ đồ thị quan sát
  2. Tạo một biểu đồ ngẫu nhiên kiểm soát các thuộc tính nhất định của biểu đồ được quan sát (ví dụ: kích thước, số cạnh, phân phối độ, v.v.)
  3. Lấy số đo f từ đồ thị ngẫu nhiên
  4. Lặp lại các bước 2 và 3 nhiều lần (ví dụ: 1000) để tạo phân phối null
  5. So sánh phép đo quan sát với phân phối null

Đối với các mạng hai chế độ, sẽ rất hợp lý khi tạo biểu đồ ngẫu nhiên bằng cách hoán vị biểu đồ quan sát (cả tnet và statnet trong R đều có thói quen cho phép hoán đổi mạng hai chế độ). Nếu phép đo f yêu cầu mạng một chế độ, quy trình ngẫu nhiên phải được thực hiện trên mạng hai chế độ trước khi chiếu nó dưới dạng mạng một chế độ.


4

Trong bài viết mà bạn trích dẫn, các tác giả cho rằng, trong một mạng phức tạp, "các nút [đại diện] đại diện cho các yếu tố của hệ thống [được mô hình hóa] và các cạnh có trọng số xác định sự hiện diện của sự tương tác và sức mạnh tương đối của nó" (nhấn mạnh bởi tôi) .

Trong mạng mà bạn nghiên cứu, nếu tôi hiểu chính xác bài báo Kinh tế học, sẽ có một liên kết giữa 2 thượng nghị sĩ nếu họ bỏ phiếu tương tự ít nhất 100 lần. Vì vậy, các liên kết không mô hình tương tác, nhưng tương đồng (giữa các hành vi bỏ phiếu của thượng nghị sĩ). Từ kinh nghiệm của tôi, các mạng tương tự không thể hiện sự phân phối mức độ giống như các mạng tương tác, theo nghĩa là nó không đồng nhất. Ngoài ra, tham số ngưỡng được sử dụng khi trích xuất mạng (ở đây: 100) đôi khi có tác động mạnh đến phân phối độ.

Hơn nữa, tôi không thể tìm thấy đề cập đến bất kỳ trọng số nào trong bài báo Kinh tế. Tuy nhiên, sự hiện diện của trọng lượng dường như là một điểm quan trọng trong phương pháp được mô tả trong công trình của Ángele Serrano et al . bạn trích dẫn trong câu hỏi của bạn.

Từ hai quan sát này, có vẻ như phương pháp này không thực hiện chính xác trên các dữ liệu này vì nó không được thiết kế để xử lý các mạng loại này. Có lẽ bạn có thể kiểm tra phân phối độ: nó tập trung vào một giá trị đặc trưng, ​​hoặc không đồng nhất? Và những gì về trọng lượng, có bất kỳ?


Tôi đã tự sao chép dữ liệu từ trang web nguồn, vì vậy tôi đã bao gồm các trọng số và không áp dụng ngưỡng cắt tùy ý. Do đó, tôi nghĩ rằng dữ liệu tôi đã áp dụng phương pháp xương sống không nên bị ảnh hưởng bởi những vấn đề này. Ý tưởng hay về việc kiểm tra phân phối bằng cấp - Tôi sẽ phải xem qua!
Randy Olson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.