Giải thích sự khác biệt giữa phân phối luật logic và phân phối điện (phân phối mức độ mạng)


22

Trước hết, tôi không phải là một nhà thống kê. Tuy nhiên, tôi đã làm phân tích mạng thống kê cho bằng tiến sĩ.

Là một phần của phân tích mạng, tôi đã vẽ một Hàm phân phối tích lũy bổ sung (CCDF) của các mức độ mạng. Những gì tôi tìm thấy là, không giống như các bản phân phối mạng thông thường (ví dụ WWW), bản phân phối được trang bị tốt nhất bởi bản phân phối hợp lý. Tôi đã cố gắng phù hợp với luật chống lại quyền lực và sử dụng các tập lệnh Matlab của Clauset et al, tôi thấy rằng phần đuôi của đường cong tuân theo luật công suất bị cắt đứt.

nhập mô tả hình ảnh ở đây

Đường chấm chấm thể hiện luật phù hợp với quyền lực. Đường màu tím thể hiện sự phù hợp với log-normal. Đường màu xanh biểu thị sự phù hợp theo cấp số nhân.

Những gì tôi đang đấu tranh để hiểu là tất cả điều này có nghĩa là gì? Tôi đã đọc bài viết này của Newman, người hơi chạm vào chủ đề này: http://arxiv.org/abs/cond-mat/0412004

Dưới đây là phỏng đoán hoang dã của tôi:

Nếu phân phối độ theo phân phối luật công suất, tôi hiểu rằng điều đó có nghĩa là có sự gắn kết ưu tiên tuyến tính trong phân phối liên kết và mức độ mạng (giàu có có hiệu lực phong phú hơn hoặc quá trình Yules).

Tôi có đúng không khi nói rằng với sự phân phối hợp lý mà tôi đang chứng kiến, có phần đính kèm ưu tiên tuyến tính ở đầu đường cong và trở nên tuyến tính hơn về phía đuôi nơi nó có thể được điều chỉnh bởi một định luật điện?

Ngoài ra, do phân phối log-normal xảy ra khi logarit của biến ngẫu nhiên (giả sử X) được phân phối bình thường, điều này có nghĩa là trong phân phối log-normal, có nhiều giá trị X nhỏ hơn và giá trị X nhỏ hơn a biến ngẫu nhiên theo sau một phân phối luật quyền lực sẽ có?

Quan trọng hơn, liên quan đến phân phối mức độ mạng, một tệp đính kèm ưu tiên log-normal vẫn đề xuất một mạng không có quy mô? Bản năng của tôi nói với tôi rằng vì đuôi của đường cong có thể được trang bị bởi một định luật điện, nên mạng vẫn có thể được kết luận là thể hiện các đặc tính không có tỷ lệ.


2
Mike, tôi nghĩ sẽ rất thú vị khi xem cốt truyện mà bạn đang xem. Bạn có phiền chỉnh sửa câu trả lời của bạn để bao gồm nó? Một điều mà tôi nhận thấy ngay lập tức là hàm ý liên quan đến luật quyền lực và sự gắn bó ưu đãi là ngược. Trong khi (một số) chương trình đính kèm ưu tiên tạo ra các phân phối mức độ luật pháp, thì hàm ý ngược lại là không đúng (nghĩa là, đó không phải là cách duy nhất). Một số thông tin về loại mạng bạn đang xem cũng có thể hữu ích. Chúc mừng.
Đức hồng y

1
Ý tôi là đính kèm ưu tiên chỉ đơn giản là một tên khác cho hiệu ứng "giàu trở nên giàu hơn" phải không? Nếu đó là trường hợp thì phân phối độ mạng tuyến tính (luật điện) chỉ là một trong nhiều phân phối độ có thể chứng minh sự gắn bó ưu đãi? Nói cách khác, miễn là độ dốc của đường cong là âm trên biểu đồ log-log thì có một số yếu tố của tệp đính kèm ưu tiên, bất kể phân phối là gì? Sau đó, sự khác biệt giữa phân phối mức độ log-normal và power-law không quá nhiều về việc có đính kèm ưu đãi hay không nhưng tỷ lệ của nó.
Mike

1
Lưu ý rằng tệp đính kèm ưu tiên là một quá trình (ngẫu nhiên) tạo ra các phân phối mức độ pháp luật cho một mạng. Độ dốc của đường sẽ thay đổi theo số mũ tỷ lệ cho một định luật lũy thừa, nhưng trong trường hợp logic bất thường, cốt truyện sẽ không tuyến tính, ngay cả ở phần đuôi. Độ dốc của phân phối tồn tại sẽ luôn âm cho dù hiệu ứng là gì. (Tại sao?)
Đức hồng y

Đó là một chỉnh sửa rất tốt. Cảm ơn, Michael! Sự phù hợp logic trong khu vực bạn đã thể hiện là khá đáng chú ý. Có vẻ như nó có thể bị phá vỡ một chút ở phần đuôi.
Đức hồng y

Cảm ơn bạn đã trả lời một lần nữa hồng y. Vì vậy, bạn có đồng ý rằng tệp đính kèm ưu tiên vẫn đang hoạt động trong mạng mà tôi đang quan sát không? Một câu hỏi khác dẫn đến là liệu mạng không có quy mô. Nếu tệp đính kèm ưu tiên hoạt động trong mạng và miễn là mạng có thành viên mới thì mạng có thể được phân loại là không có quy mô mặc dù phân phối mức độ mạng không tuyến tính. Đây là nơi tôi không chắc lắm.
Mike

Câu trả lời:


12

Tôi nghĩ sẽ rất hữu ích khi tách câu hỏi thành hai phần:

  1. Các hình thức chức năng của phân phối theo kinh nghiệm của bạn là gì? và
  2. Biểu mẫu chức năng đó ngụ ý gì về quy trình tạo trong mạng của bạn?

p>0,1x15p<0,1có nghĩa là về cơ bản làm điều tương tự. Bạn có thể từ chối mô hình đó như một quy trình tạo dữ liệu phân phối độ bạn có không? Nếu không, thì bạn được phép đưa log-normal vào danh mục "hợp lý".

x»1

Câu hỏi thứ hai thực sự khó hơn trong hai. Như một số người đã chỉ ra trong các ý kiến ​​trên, có nhiều cơ chế tạo ra các phân phối quyền lực và đính kèm ưu đãi (trong tất cả các biến thể và vinh quang của nó) chỉ là một trong nhiều cơ chế. Do đó, việc quan sát phân phối luật pháp trong dữ liệu của bạn (ngay cả dữ liệu chính hãng vượt qua các kiểm tra thống kê cần thiết) không đủ bằng chứng để kết luận rằng quy trình tạo là tệp đính kèm ưu tiên. Hoặc, nói chung hơn, nếu bạn có một cơ chế A tạo ra một số mẫu X trong dữ liệu (ví dụ: phân phối mức độ thông thường nhật ký trong mạng của bạn). Quan sát mẫu X trong dữ liệu của bạn không phải là bằng chứng cho thấy dữ liệu của bạn được tạo ra bởi cơ chế A. Dữ liệu phù hợp với A, nhưng điều đó không có nghĩa A là cơ chế phù hợp.

Để thực sự chỉ ra rằng A là câu trả lời, bạn phải kiểm tra trực tiếp các giả định cơ học của nó và cho thấy rằng chúng cũng giữ cho hệ thống của bạn, và tốt nhất là cũng cho thấy các dự đoán khác về cơ chế cũng có trong dữ liệu. Một ví dụ thực sự tuyệt vời về phần kiểm tra giả định đã được Sid Redner thực hiện (xem Hình 4 của bài viết này ), trong đó ông đã chỉ ra rằng đối với các mạng trích dẫn, giả định đính kèm ưu tiên tuyến tính thực sự có trong dữ liệu.

Cuối cùng, thuật ngữ "mạng không có quy mô" bị quá tải trong tài liệu, vì vậy tôi khuyên bạn nên tránh nó. Mọi người sử dụng nó để chỉ các mạng có phân phối mức độ luật pháp đến các mạng được phát triển bởi tệp đính kèm ưu tiên (tuyến tính). Nhưng như chúng tôi vừa giải thích, hai điều này không giống nhau, vì vậy sử dụng một thuật ngữ duy nhất để chỉ cả hai chỉ là khó hiểu. Trong trường hợp của bạn, phân phối log-normal hoàn toàn không phù hợp với cơ chế đính kèm ưu tiên tuyến tính cổ điển, vì vậy nếu bạn quyết định rằng log-normal là câu trả lời cho câu hỏi 1 (trong câu trả lời của tôi), thì nó sẽ ám chỉ rằng mạng của bạn không phải là ' quy mô miễn phí 'theo nghĩa đó. Thực tế là phần đuôi trên là 'được' vì phân phối theo luật công suất sẽ là vô nghĩa trong trường hợp đó, vì luôn có một phần của phần trên của bất kỳ phân phối thực nghiệm nào sẽ vượt qua bài kiểm tra đó (và nó sẽ vượt qua vì bài kiểm tra Mất năng lượng khi không có nhiều dữ liệu để tiếp tục, đó chính xác là những gì xảy ra ở phần đuôi cực cao).


bạn đã trộn lẫn <và> khi nói chuyện với giá trị p cho phần đuôi phù hợp chưa?
David Nathan

Các điều kiện giá trị p trong nhận xét này là đúng. Các giá trị p được đề cập ở đây đến từ phần 4.1 của arxiv.org/abs/0706.1062 , trong đó các giá trị lớn đại diện cho phù hợp tốt và các giá trị nhỏ đại diện cho phù hợp xấu. Xem cụ thể chú thích 8 ở cuối trang 17.
Jonathan S.

3

Thật là một câu hỏi hay. Tôi đang có một cuộc trò chuyện liên quan về vấn đề này liên quan đến câu hỏi tôi đã hỏi ở nơi khác trên CrossValidated. Ở đó, tôi đã hỏi liệu phân phối gamma có phải là một bản phân phối tốt để sử dụng trong mô phỏng mạng xã hội hay không, trong đó xác suất quan hệ là nội sinh đối với một số đặc tính "phổ biến" liên tục của các nút. @NickCox đề nghị tôi sử dụng phân phối lognatural thay thế. Tôi đã trả lời rằng phân phối hợp lý có một số bằng chứng lý thuyết là quá trình cơ bản mô tả mức độ phổ biến vì mức độ phổ biến có thể được hiểu là sản phẩm của nhiều biến ngẫu nhiên có giá trị dương (ví dụ: sự giàu có, thu nhập, chiều cao, năng lực tình dục, năng lực chiến đấu, IQ). Điều này có ý nghĩa với tôi hơn là sự biện minh về mặt lý thuyết cho luật công suất và nó phù hợp với dữ liệu thực nghiệm, điều này cho thấy hình dạng của luật công suất quá không thể giải thích được sự thay đổi giữa các mạng trong phân bố độ. Sự bất thường bằng cách so sánh, có hình dạng rất linh hoạt, với chế độ gần bằng 0 cho phương sai cao. Hơn nữa, điều hợp lý là độ lệch của phân phối độ sẽ tăng theo phương sai do hiệu ứng đính kèm ưu tiên.

Tóm lại, tôi nghĩ rằng phân phối lognatural phù hợp nhất với dữ liệu của bạn bởi vì phân phối lognatural mô tả quá trình cơ bản của sự hình thành phân phối độ tốt hơn so với luật công suất hoặc phân phối theo cấp số nhân.


2

Đến trang web này sau khi đếm các phân phối bong bóng của tôi và sử dụng luật năng lượng cho dữ liệu độ nhớt.

Lướt qua các tập dữ liệu mẫu trong bài báo về luật điện của Clauset et al. họ đã đưa ra một số nỗi kinh hoàng thực sự của các tập dữ liệu, khác xa với các tập dữ liệu luật quyền lực để hỗ trợ cho lập luận của họ. Chỉ từ lẽ thường, tôi chắc chắn sẽ không cố gắng phù hợp với chức năng luật công suất cho toàn bộ phạm vi dữ liệu cho hầu hết chúng. Tuy nhiên, hành vi tự mở rộng trong thế giới thực có thể hợp lệ trên một phần của hệ thống được quan sát, nhưng bị hỏng khi một số thuộc tính hệ thống đạt đến giới hạn vật lý hoặc chức năng.

Các bài báo rất dễ đọc dưới đây đề cập đến sự phù hợp với đường cong tăng trưởng cho các nhà sinh thái học, với một cuộc thảo luận tốt về luật quyền lực và các phân phối liên quan, dựa trên các mô hình hành vi dân số dựa trên quan sát.

Tác giả thực dụng hơn nhiều so với Clauset et al. Trích dẫn: "... nếu mục tiêu chỉ là tốt nhất và tỷ lệ bên ngoài cửa sổ tỷ lệ của tập dữ liệu không được thảo luận, bất kỳ mô hình nào cũng có thể cho rằng nó tạo ra tốt và không tạo ra cực đại hoặc cực tiểu trong cửa sổ tỷ lệ được nghiên cứu . " "Người ta thường buộc phải cùng một mô hình, như các nhà nghiên cứu khác đã áp dụng cho dữ liệu của họ, để có thể so sánh các giá trị tham số, nhưng người ta có thể làm điều này ngoài việc áp dụng mô hình hoặc mô hình tốt hơn với mong đợi tốt hơn hình dạng, hoặc cả hai. " Những lời nói yên tĩnh.

Tjørve, E. (2003). Hình dạng và chức năng của các đường cong khu vực loài: Đánh giá các mô hình có thể. Tạp chí địa sinh học, 30 (6), 827-835.

Tjørve, E. (2009). Hình dạng và chức năng của các đường cong khu vực loài (ii): Đánh giá các mô hình và tham số hóa mới. Tạp chí địa sinh học, 36 (8), 1435-1445.


1

Các kết quả trên cho thấy rằng phân phối độ có thể là cả luật năng lượng và logic bất thường, điều này có thể gợi ý rằng các thuộc tính thế giới nhỏ và quy mô không tồn tại trong mạng được nghiên cứu. Để kiểm tra xem mạng có mở rộng quy mô không (với tham số tỷ lệ không đổi) với tệp đính kèm ưu tiên, thiết kế thử nghiệm thường được yêu cầu. Trong bài viết của Sid Redner đã đề cập ở trên, tốc độ tăng trưởng được sử dụng để hiểu cơ chế tăng trưởng. Trong khi Gallos, Song và Makse sử dụng các hộp để che mạng và kết luận rằng phân phối mức độ mạng tuân theo phân phối luật công suất, nếu NB (lB) ~ lB ^ -dB. Hoặc kiểm tra các mối quan hệ giữa hệ số cụm và mức độ (liệu mối quan hệ có thỏa mãn luật công suất hay không). Mặt khác, người ta thảo luận rằng các mạng chữ tượng hình có cả thuộc tính mạng thế giới nhỏ và quy mô miễn phí. (gõ thang Fractal miễn phí,

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.