Đo entropy / thông tin / mẫu của ma trận nhị phân 2d


53

Tôi muốn đo mật độ entropy / thông tin / độ giống mẫu của ma trận nhị phân hai chiều. Hãy để tôi hiển thị một số hình ảnh để làm rõ:

Màn hình này phải có một entropy khá cao:

A)

nhập mô tả hình ảnh ở đây

Điều này nên có entropy trung bình:

B)

nhập mô tả hình ảnh ở đây

Những hình ảnh này, cuối cùng, tất cả nên có entropy gần như bằng không:

C)

nhập mô tả hình ảnh ở đây

CƯỜI MỞ MIỆNG)

nhập mô tả hình ảnh ở đây

E)

nhập mô tả hình ảnh ở đây

Có một số chỉ số nắm bắt entropy, resp. "độ giống mẫu" của những màn hình này?

Tất nhiên, mỗi thuật toán (ví dụ: thuật toán nén hoặc thuật toán xoay được đề xuất bởi ttnphns ) rất nhạy cảm với các tính năng khác của màn hình. Tôi đang tìm kiếm một thuật toán cố gắng nắm bắt các thuộc tính sau:

  • Đối xứng quay và trục
  • Số lượng phân cụm
  • Sự lặp lại

Có thể phức tạp hơn, các thuật toán có thể nhạy cảm với các thuộc tính của " nguyên tắc Gestalt " tâm lý , đặc biệt:

  • Luật gần gũi: luật gần
  • Quy luật đối xứng: Hình ảnh đối xứng được cảm nhận chung, thậm chí bất chấp khoảng cách:đối xứng

Hiển thị với các thuộc tính này sẽ được gán "giá trị entropy thấp"; hiển thị với các điểm khá ngẫu nhiên / không có cấu trúc sẽ được gán "giá trị entropy cao".

Tôi biết rằng hầu hết có lẽ sẽ không có thuật toán đơn lẻ nào nắm bắt được tất cả các tính năng này; do đó, đề xuất cho các thuật toán chỉ giải quyết một số hoặc thậm chí chỉ một tính năng duy nhất cũng rất được hoan nghênh.

Cụ thể, tôi đang tìm kiếm các thuật toán cụ thể, hiện có hoặc cho các ý tưởng cụ thể, có thể thực hiện được (và tôi sẽ trao thưởng cho tiền thưởng theo các tiêu chí này).


Câu hỏi hay! Tôi có thể hỏi mặc dù, những gì thúc đẩy cần một biện pháp duy nhất? Ba thuộc tính của bạn (đối xứng, phân cụm và lặp lại) trên khuôn mặt của chúng dường như đủ độc lập để đảm bảo các biện pháp riêng biệt.
Andy W

Cho đến nay tôi có một chút nhận thức rằng bạn có thể tìm thấy một thuật toán phổ quát thực hiện nguyên tắc cử động. Loại thứ hai chủ yếu dựa trên sự công nhận các nguyên mẫu có trước. Tâm trí của bạn có thể có những điều này, nhưng máy tính của bạn thì không.
ttnphns

Tôi đồng ý với cả hai bạn. Trên thực tế tôi đã không tìm kiếm một thuật toán duy nhất - mặc dù từ ngữ trước đây của tôi thực sự gợi ý điều này. Tôi đã cập nhật câu hỏi để cho phép rõ ràng các thuật toán cho các thuộc tính duy nhất. Có lẽ ai đó cũng có ý tưởng về cách kết hợp đầu ra của nhiều thuật toán (ví dụ: "luôn lấy giá trị entropy thấp nhất của tập hợp các thuật toán")
Felix S

1
Bounty đã kết thúc . Cảm ơn tất cả những người đóng góp và những ý tưởng tuyệt vời! Tiền thưởng này tạo ra một loạt các phương pháp thú vị. Một số câu trả lời chứa rất nhiều công việc trí não, và đôi khi thật đáng tiếc rằng tiền thưởng không thể bị chia tách. Cuối cùng, tôi quyết định trao tiền thưởng cho @whuber, vì giải pháp của anh ấy là thuật toán có vẻ như toàn diện nhất đối với các tính năng mà nó nắm bắt và rất dễ thực hiện. Tôi cũng đánh giá cao rằng nó đã được áp dụng cho các ví dụ cụ thể của tôi. Ấn tượng nhất là khả năng gán số theo thứ tự chính xác của "xếp hạng trực quan" của tôi. Cảm ơn, F
Felix S

Câu trả lời:


35

Có một thủ tục đơn giản là nắm bắt tất cả các trực giác, bao gồm các yếu tố tâm lý và hình học. Nó dựa vào việc sử dụng sự gần gũi về không gian , là nền tảng của nhận thức của chúng ta và cung cấp một cách thức nội tại để nắm bắt những gì chỉ được đo lường một cách không hoàn hảo bằng các đối xứng.

Để làm điều này, chúng ta cần đo lường "độ phức tạp" của các mảng này ở các thang đo cục bộ khác nhau. Mặc dù chúng tôi có nhiều sự linh hoạt để chọn các thang đo đó và chọn ý nghĩa trong đó chúng tôi đo lường mức độ "gần gũi", nhưng nó đủ đơn giản và hiệu quả để sử dụng các vùng lân cận vuông nhỏ và xem xét trung bình (hoặc, tương đương, tổng) trong chúng. Để kết thúc này, một chuỗi các mảng có thể được bắt nguồn từ bất kỳ bằng mảng bằng cách hình thành các khoản tiền hàng xóm di chuyển bằng bằng khu dân cư, sau đó bằng , vv, lên đến bởi (mặc dù sau đó thường có quá ít giá trị để cung cấp mọi thứ đáng tin cậy).mnk=2233min(n,m)min(n,m)

Để xem cách thức hoạt động, hãy thực hiện các phép tính cho các mảng trong câu hỏi mà tôi sẽ gọi đến , từ trên xuống dưới. Dưới đây là các sơ đồ tổng hợp di chuyển cho (tất nhiên là mảng ban đầu) được áp dụng cho .a1a5k=1,2,3,4k=1a1

Hình 1

Theo chiều kim đồng hồ từ phía trên bên trái, bằng , , và . Các mảng lần lượt là by , sau đó by , by và by . Tất cả đều trông giống như "ngẫu nhiên." Chúng ta hãy đo sự ngẫu nhiên này với entropy cơ sở 2 của chúng. Đối với , chuỗi các entropies này là . Hãy gọi đây là "hồ sơ" của .k124355442233a1(0.97,0.99,0.92,1.5)a1

Ngược lại, đây là các tổng di chuyển của :a4

Hình 2

Với có ít biến thiên, entropy thấp. Hồ sơ là . Các giá trị của nó luôn thấp hơn các giá trị cho , xác nhận cảm giác trực quan rằng có một "mẫu" mạnh có trong .k=2,3,4(1.00,0,0.99,0)a1a4

Chúng ta cần một khung tham chiếu để diễn giải những hồ sơ này. Một mảng hoàn toàn ngẫu nhiên của các giá trị nhị phân sẽ chỉ có khoảng một nửa giá trị của nó bằng và nửa còn lại bằng , cho entropy là . Các khoản tiền di chuyển trong bằng các khu phố sẽ có xu hướng có phân phối nhị thức, đem lại cho họ entropies thể dự đoán được (ít nhất là đối với mảng lớn) có thể được xấp xỉ bằng :011kk1+log2(k)

Âm mưu Entropy

Những kết quả này được tạo ra bằng cách mô phỏng với các mảng lên tới . Tuy nhiên, họ phá vỡ đối với mảng nhỏ (ví dụ như bởi mảng ở đây) do mối tương quan giữa các cửa sổ láng giềng (một lần kích thước cửa sổ là khoảng một nửa kích thước của mảng) và do số lượng nhỏ dữ liệu. Đây là một hồ sơ tài liệu tham khảo của ngẫu nhiên bởi mảng được tạo ra bằng cách mô phỏng cùng với âm mưu của một số cấu hình thực tế:m=n=1005555

Sơ đồ hồ sơ

Trong cốt truyện này, hồ sơ tham khảo là màu xanh rắn. Các cấu hình mảng tương ứng với : đỏ, : vàng, : xanh, : màu xanh nhạt. (Bao gồm sẽ che khuất hình ảnh vì nó gần với cấu hình của .) Nhìn chung, các cấu hình tương ứng với thứ tự trong câu hỏi: chúng nhận được thấp hơn ở hầu hết các giá trị của khi thứ tự rõ ràng tăng lên. Ngoại lệ là : cho đến khi kết thúc, với , tổng số chuyển động của nó có xu hướng có trong số các entropi thấp nhất . Điều này cho thấy một quy luật đáng ngạc nhiên: mỗi của khu phố tronga1a2a3a4a5a4ka1k=422a1 có chính xác hoặc ô vuông màu đen, không bao giờ nhiều hơn hoặc ít hơn. Nó ít "ngẫu nhiên" hơn người ta tưởng. (Điều này một phần là do mất thông tin đi kèm với việc tính tổng các giá trị trong mỗi vùng lân cận, một quy trình cô đọng các cấu hình lân cận có thể thành các khoản tiền khác nhau có thể Nếu chúng tôi muốn tính toán cụ thể cho các phân nhóm và định hướng trong mỗi khu phố, sau đó thay vì sử dụng các khoản tiền di chuyển, chúng tôi sẽ sử dụng di chuyển concatenations. Đó là, mỗi bằng hàng xóm có122k2k2+1kk2k2cấu hình khác nhau có thể; bằng cách phân biệt tất cả, chúng ta có thể có được số đo entropy tốt hơn. Tôi nghi ngờ rằng một biện pháp như vậy sẽ nâng cao cấu hình của so với các hình ảnh khác.)a1

Kỹ thuật tạo hồ sơ của các entropies trên một phạm vi tỷ lệ được kiểm soát, bằng cách tính tổng (hoặc nối hoặc kết hợp các giá trị) trong các vùng lân cận di chuyển, đã được sử dụng để phân tích hình ảnh. Đó là một khái quát hai chiều của ý tưởng nổi tiếng về phân tích văn bản trước tiên là một loạt các chữ cái, sau đó là một loạt các bản thảo (trình tự hai chữ cái), sau đó là các bức thư, v.v. Nó cũng có một số mối quan hệ rõ ràng với fractal phân tích (khám phá các thuộc tính của hình ảnh ở quy mô nhỏ hơn và mịn hơn). Nếu chúng ta cẩn thận sử dụng tổng di chuyển khối hoặc ghép khối (để không có sự chồng chéo giữa các cửa sổ), người ta có thể rút ra các mối quan hệ toán học đơn giản giữa các entropi liên tiếp; Tuy nhiên,

Mở rộng khác nhau là có thể. Ví dụ, đối với cấu hình bất biến xoay vòng, hãy sử dụng các vùng lân cận hình tròn thay vì hình vuông. Tất cả mọi thứ khái quát vượt ra ngoài mảng nhị phân, tất nhiên. Với các mảng đủ lớn, người ta thậm chí có thể tính toán các cấu hình entropy khác nhau cục bộ để phát hiện sự không ổn định.

Nếu một số duy nhất là mong muốn, thay vì toàn bộ hồ sơ, hãy chọn thang đo mà tính ngẫu nhiên không gian (hoặc thiếu số đó) được quan tâm. Trong những ví dụ, quy mô mà sẽ tương ứng tốt nhất để một bởi hoặc của di chuyển khu phố, bởi vì đối với khuôn mẫu của họ tất cả họ đều dựa vào nhóm mà span 3-5 tế bào (và của khu phố chỉ trung bình đi tất cả sự thay đổi trong mảng và như vậy là vô dụng). Ở thang đo sau, các entropies cho đến là , , , và334455a1a51.500.81000 ; entropy dự kiến ​​ở thang đo này (cho một mảng ngẫu nhiên đồng đều) là . Điều này biện minh cho ý nghĩa rằng "nên có entropy khá cao." Để phân biệt , , và , được buộc lại bằng entropy ở quy mô này, hãy nhìn vào độ phân giải tốt hơn tiếp theo ( bởi vùng lân cận): entropy của họ là , , , tương ứng (trong khi một mạng lưới ngẫu nhiên được kỳ vọng sẽ có giá trị là ). Bằng các biện pháp này, câu hỏi ban đầu đặt các mảng theo đúng thứ tự.1.34a1a3a4a50331.390.990.921.77


Tôi xin lỗi, tôi không thể hiểu làm thế nào bạn tạo ra các khoản tiền chuyển động của bạn. Xin vui lòng, giải thích chi tiết hơn về cách tính tổng di chuyển.
ttnphns

1
@ttnphns Đây là một trang trợ giúp minh họa phổ biến về chủ đề này.
whuber

4
Tôi đã sao chép kết quả từ câu trả lời xuất sắc này của @whuber bằng NumPy và matplotlib trong Python, có sẵn tại đây: github.com/cosmoharrigan/matrix-entropy
Cosmo Harrigan

(1) Đây là một nguyên tắc rất chung chung: Với bất kỳ MultiSet , có entropy liên quan đến một cách tự nhiên của phân bố xác suất xác định bằng bội của các yếu tố riêng biệt của nó , cụ thể là , nơi là tập hợp các yếu tố khác biệt trong . Ví dụ như multisets hình thành bởi size- các khu phố của các hình dạng khác nhau trong các vật thể có kích thước khác nhau. (Tôi vừa mới công bố một ứng dụng 1D để length- chuỗi con .)Mμ(e)ep(e):=μ(e)eSμ(e)  (eS)SMkk
res

@whuber Câu trả lời tuyệt vời. Mặc dù nó có ý nghĩa trực quan, nhưng có một bài báo hoặc sách giáo khoa người ta có thể trích dẫn cho nguồn gốc ban đầu của điều này (tôi giả sử rằng nếu đây là tác phẩm gốc của bạn, bạn đã xuất bản nó chính thức trên một tạp chí)?
subhacom

10

Đầu tiên, đề xuất của tôi hoàn toàn trực quan: Tôi không biết gì trong lĩnh vực nhận dạng mẫu. Thứ hai, hàng tá đề xuất thay thế như của tôi có thể được thực hiện.

Tôi bắt đầu với ý tưởng rằng một cấu hình thông thường (nghĩa là với entropy thấp) nên bằng cách nào đó đối xứng, đồng hình với điều này hoặc rằng các chất ổn định của nó. Ví dụ, trong các vòng quay.

Bạn có thể xoay (lật đến 90 độ, hơn 180 độ, v.v.) cho đến khi cấu hình đồng nhất với ma trận ban đầu . Nó sẽ luôn đồng tình theo 4 góc quay (360 độ), nhưng đôi khi nó có thể đồng tình sớm hơn (như ma trận E trong hình).

Ở mỗi vòng quay, đếm số lượng ô có giá trị không giống nhau giữa cấu hình ban đầu và ô được xoay. Ví dụ: nếu bạn so sánh ma trận gốc A với góc xoay 90 độ của nó, bạn sẽ khám phá 10 ô trong đó có một điểm trong một ma trận và để trống trong ma trận khác. Sau đó so sánh ma trận gốc với góc quay 180 độ của nó: 11 ô như vậy sẽ được tìm thấy. 10 ô là sự khác biệt giữa ma trận gốc A và góc quay 270 độ của nó. 10 + 11 + 10 = 31 là tổng thể "entropy" của ma trận A .

Đối với ma trận B , "entropy" là 20 và đối với ma trận E chỉ là 12. Đối với ma trận CD "entropy" là 0 vì các phép quay dừng sau 90 độ: đã đạt được đẳng cấu.

nhập mô tả hình ảnh ở đây


Cảm ơn lời đề nghị của bạn! Mặc dù tôi có thể nghĩ về một số màn hình "dễ dàng" không phải là bất biến đối với chuyển đổi xoay, đây là một cách tiếp cận đẹp và dễ dàng (và có thể mở rộng!). Tôi phải suy nghĩ về loại chuyển đổi nào tôi muốn có. Và tôi thích cách tiếp cận đếm điểm của bạn trong mỗi lần chuyển đổi.
Felix S

Cảm ơn bạn đã đánh giá cao. Nhưng cách tiếp cận chỉ là sơ khai ban đầu, một ý tưởng chung và bạn nói đúng là nó có thể mở rộng.
ttnphns

Tôi thích cách tiếp cận của bạn. Tuy nhiên, để có được câu trả lời tổng quát hơn, có thể đáng để lấy một nhóm đối xứng lớn hơn một chút - danh tính, 3 phép quay và 4 phản xạ (ví dụ , en.wikipedia.org/wiki/Dih ). Sau đó đếm sự khác biệt ( ) giữa tất cả các cặp (tức là ) và như một thước đo ngẫu nhiên , trong đó là số lượng đá đen. Đối với các hình dạng hoàn toàn ngẫu nhiên, người ta sẽ nhận được , trong khi đối với rất đối xứng . Điều tốt là công thức cho giữ cho số lượng đá khác nhau trên bảng và có đối xứng BW. D4d87r=k187252n(25n))nr1r0r
Piotr Migdal

Xin lỗi vì quá phức tạp. Nó đủ để so sánh các mẫu ban đầu với đối xứng của nó khác với bản sắc. Sau đó, trong hệ số chuẩn hóa có thay vì . 7778
Piotr Migdal

5

Thông tin thường được định nghĩa là . Có một lý thuyết hay giải thích rằng là số bit bạn cần để mã sử dụng . Nếu bạn muốn biết thêm về điều này, hãy đọc về mã hóa số học .h(x)=logp(x)log2p(x)xp

Vậy làm thế nào để giải quyết vấn đề của bạn? Dễ dàng. Tìm một số đại diện cho dữ liệu của bạn và sử dụng trong đó là một mẫu mới làm thước đo cho sự bất ngờ hoặc thông tin gặp phải nó.plogp(x)x

Điều khó khăn là tìm một số mô hình cho và tạo dữ liệu của bạn. Có lẽ bạn có thể đưa ra một thuật toán tạo ra ma trận mà bạn cho là 'có thể xảy ra'.p

Một số ý tưởng cho phù hợp .p

  1. Nếu bạn chỉ nhìn vào ma trận 5x5, bạn chỉ cần bit để lưu trữ tất cả các ma trận có thể, vì vậy bạn chỉ có thể liệt kê tất cả chúng và gán một xác suất nhất định cho mỗi ma trận.225
  2. Sử dụng máy Boltzmann bị hạn chế để phù hợp với dữ liệu của bạn (sau đó bạn sẽ phải sử dụng năng lượng miễn phí để thay thế thông tin, nhưng không sao),
  3. Sử dụng zip để thay thế cho và không quan tâm đến toàn bộ câu chuyện xác suất từ ​​phía trên. Nó thậm chí còn chính thức, bởi vì bạn sử dụng zip như một sự gần đúng với độ phức tạp Kolmogorov và điều này đã được thực hiện bởi các nhà lý thuyết thông tin cũng dẫn đến khoảng cách nén được chuẩn hóa ,logp(x)
  4. Có thể sử dụng một mô hình đồ họa để bao gồm niềm tin trước không gian và sử dụng các biến Bernoulli cục bộ.
  5. Để mã hóa tính bất biến tịnh tiến, bạn có thể sử dụng mô hình dựa trên năng lượng bằng cách sử dụng mạng chập .

Một số ý tưởng trên khá nặng nề và đến từ máy học. Trong trường hợp bạn muốn có thêm lời khuyên, chỉ cần sử dụng các ý kiến.


Rõ ràng, entropy Kolmogorov là cách tiếp cận tốt nhất, theo nghĩa triết học, nếu bạn nghĩ về "sự đơn giản mẫu trừu tượng" và bạn không cố gắng dự đoán nó sẽ dẫn đến tâm trí con người đơn giản như thế nào. Nó chỉ đơn giản xác định entropy là "độ dài của chương trình ngắn nhất có thể tạo ra mẫu đó". Tất nhiên, bạn vẫn cần chỉ định ngôn ngữ máy tính, nhưng bạn vẫn có thể dựa vào một máy Turing trừu tượng để chơi trò lừa.
Javier Rodriguez Laguna

Ngôn ngữ lập trình không thực sự quan trọng. Một phần bổ sung của chương trình biên dịch từ ngôn ngữ A sang ngôn ngữ B sẽ tăng bit không đổi (trình biên dịch) và do đó có thể bị bỏ qua.
bayerj

4

Đề xuất sau đây của tôi là khá sâu sắc hơn suy luận, vì vậy tôi không thể chứng minh nó, nhưng ít nhất có thể đưa ra một số lý do. Quy trình đánh giá "entropy" của cấu hình các điểm bao gồm:

  1. Số hóa các điểm.
  2. Thực hiện so sánh cấu hình với chính nó được cho phép, nhiều lần, bằng phân tích Procrustes trực giao .
  3. Vẽ kết quả so sánh (hệ số nhận dạng) và đánh giá độ lởm chởm của lô.

Số hóa các điểm , nghĩa là lấy tọa độ của chúng. Ví dụ, bên dưới là cấu hình D của bạn với các điểm được đánh số (thứ tự đánh số có thể tùy ý) và tọa độ của chúng. nhập mô tả hình ảnh ở đây

spot x   y
1   1   1
2   3   1
3   5   1
4   2   2
5   4   2
6   1   3
7   3   3
8   5   3
9   2   4
10  4   4
11  1   5
12  3   5
13  5   5

Làm hoán vị và thực hiện phân tích Procrustes. Hoán vị các điểm (các hàng trong dữ liệu) một cách ngẫu nhiên và thực hiện So sánh các dữ liệu gốc (không được hoán vị) với dữ liệu được hoán vị; ghi lại hệ số nhận dạng (đo độ tương tự của hai cấu hình, đầu ra bằng phân tích). Lặp lại hoán vị - Procrustes - tiết kiệm hệ số, nhiều lần (ví dụ 1000 lần trở lên).

Những gì chúng ta có thể chờ đợi từ các hệ số nhận dạng (IDc) thu được sau hoạt động trên trên một cấu trúc thông thường ?Ví dụ, xem xét cấu hình trên D. Nếu chúng ta so sánh các tọa độ ban đầu được đặt với chính nó, tất nhiên chúng ta sẽ nhận được IDc = 1. Nhưng nếu chúng ta hoán vị một số điểm thì IDc giữa tập gốc và hoán vị sẽ có giá trị nào đó bên dưới 1. Chúng ta hãy hoán vị, ví dụ, một cặp điểm, được gắn nhãn 1 và 4. IDc = .964. Bây giờ, thay vào đó, hoán vị điểm 3 và 5. Điều thú vị là IDc sẽ là .964 một lần nữa. Cùng một giá trị, tại sao? Các điểm 3 và 5 đối xứng với 1 và 4, do đó xoay đến 90 độ sẽ chồng chúng lên nhau. So sánh Procrustes không nhạy cảm với xoay hoặc phản xạ, và do đó hoán vị trong cặp 1-4 là "giống" như hoán vị trong cặp 5-3, đối với nó. Để thêm ví dụ, nếu bạn hoán đổi chỉ điểm 4 và 7, IDc sẽ lại .964! Dường như đối với Procrustes, hoán vị trong cặp 4-7 là "giống nhau" như hai điều trên theo nghĩa là nó cho cùng một mức độ tương tự (được đo bằng IDc). Rõ ràng, tất cả điều này là do cấu hình D là thường xuyên.Đối với cấu hình thông thường, chúng tôi hy vọng sẽ thu được các giá trị IDc khá rời rạc trong thử nghiệm hoán vị / so sánh của chúng tôi; trong khi đối với cấu hình không đều, chúng tôi hy vọng rằng các giá trị sẽ có xu hướng liên tục.

Vẽ các giá trị IDc được ghi lại. Ví dụ: sắp xếp các giá trị và tạo biểu đồ đường. Tôi đã thực hiện thử nghiệm - 5000 hoán vị - với mỗi cấu hình A, B (cả hai khá bất thường), D, E (cả hai thường xuyên) và đây là sơ đồ dòng:

nhập mô tả hình ảnh ở đây

Lưu ý có bao nhiêu răng cưa là đường D và E (đặc biệt là D). Điều này là do sự không thống nhất của các giá trị. Giá trị cho A và B liên tục hơn nhiều. Bạn có thể chọn cho mình một số loại thống kê ước tính mức độ rời rạc / liên tục, thay vì âm mưu. A dường như không liên tục hơn B (đối với bạn, cấu hình A có phần kém thường xuyên hơn, nhưng biểu đồ dòng của tôi dường như không thể hiện điều đó) hoặc, nếu không, có thể hiển thị một mẫu khác của các giá trị IDc. Một mô hình khác? Điều này nằm ngoài phạm vi câu trả lời của tôi. Câu hỏi lớn cho dù A thực sự ít thường xuyên hơn B: nó có thể dành cho mắt của bạn, nhưng không nhất thiết phải phân tích Procrustes hoặc mắt của người khác.

Nhân tiện, toàn bộ thí nghiệm hoán vị / Procrustes tôi đã làm rất nhanh. Tôi đã sử dụng macro phân tích Procrustes của riêng mình cho SPSS (được tìm thấy trên trang web của tôi) và thêm một số dòng mã để thực hiện hoán vị.


3

Thông tin lẫn nhau, coi mỗi thứ nguyên là một biến ngẫu nhiên, do đó mỗi ma trận là một tập hợp các cặp số, sẽ giúp ích trong mọi trường hợp, ngoại trừ C, trong đó tôi không chắc chắn về kết quả.

Xem phần thảo luận xung quanh Hình 8 (bắt đầu từ p24) về phân tích hiệu suất hồi quy trong hướng dẫn TMVA hoặc mục nhập arxiv tương ứng .

Số liệu khác nhau cho các bản phân phối khác nhau


Tôi có vấn đề trong việc mở tài liệu liên kết.
ttnphns

Đã thêm một liên kết thay thế. Nhưng cái đầu tiên làm việc cho tôi (chỉ cần thử nghiệm).
adavid

3

Thay vì nhìn vào các đặc tính toàn cầu của mẫu (như đối xứng), người ta có thể xem xét các mẫu cục bộ, ví dụ: số lượng hàng xóm mỗi viên đá (= vòng tròn đen) có. Hãy biểu thị tổng số viên đá bằng .s

Nếu các viên đá được ném ngẫu nhiên, phân phối của hàng xóm là trong đó là mật độ của đá. Số lượng vị trí phụ thuộc nếu một viên đá nằm trong nội thất ( ), trên cạnh ( ) hoặc trên góc .

Prand,p(k neighbors|n places)=(nk)pk(1p)nk,
p=s/25nn=8n=5(n=3)

Rõ ràng là sự phân phối của các lân cận trong C) , D)E) khác xa với ngẫu nhiên. Ví dụ: đối với D), tất cả các viên đá bên trong có chính xác hàng xóm (đối lập với phân phối ngẫu nhiên, mang lại thay vì số đo ).4(0%,2%,9%,20%,27%,24%,13%,4%,0%)(0%,0%,0%,0%,100%,0%,0%,0%,0%)

Vì vậy, để định lượng nếu một mẫu là ngẫu nhiên, bạn cần so sánh phân phối của hàng xóm và so sánh nó với một mẫu ngẫu nhiên . Ví dụ, bạn có thể so sánh phương tiện và phương sai của họ.Pmeasured(k|n)Prand,p(k|n)

Ngoài ra, người ta có thể đo khoảng cách của họ trong các không gian chức năng, ví dụ: trong đó là tỷ lệ đo được của các điểm với các không gian liền kề và là dự đoán cho một mẫu ngẫu nhiên, tức là , và .

n={3,5,8}k=0n[Pmeasured(k|n)Pmeasured(n)Prand,p(k|n)Prand,p(n)]2,
Pmeasured(n)nPrand,p(n)Prand,p(3)=4/25Prand,p(5)=12/25Prand,p(8)=9/25

2

Có một cách thực sự đơn giản để khái niệm hóa nội dung thông tin phản ánh ý tưởng của Shannon (thừa nhận một chiều) bằng cách sử dụng xác suất và xác suất chuyển tiếp để tìm một biểu diễn ít nhất của chuỗi văn bản. Đối với một hình ảnh (trong trường hợp cụ thể này là hình ảnh nhị phân được xác định trên ma trận vuông) chúng ta có thể xây dựng lại một cách độc đáo từ kiến ​​thức về các đạo hàm x và y (-1,0, + 1). Chúng ta có thể xác định xác suất chuyển tiếp 3x3 và hàm mật độ xác suất toàn cầu, cũng là 3x3. Thông tin Shannon sau đó được lấy từ công thức tính tổng logarit cổ điển được áp dụng trên 3x3. Đây là thước đo thông tin thứ hai của Shannon và nắm bắt cấu trúc không gian trong pdf 3x3.

Cách tiếp cận này trực quan hơn khi áp dụng cho ảnh thang độ xám có nhiều hơn 2 mức (nhị phân), xem https://arxiv.org/abs/1609.01117 để biết thêm chi tiết.


1

Trong khi đọc điều này, hai điều đến với tâm trí. Đầu tiên là rất nhiều tính chất của cử chỉ khá khó dự đoán, và rất nhiều công việc ở cấp độ tiến sĩ đang cố gắng tìm ra các mô hình cho cách thức phân nhóm diễn ra. Bản năng của tôi là hầu hết các quy tắc dễ dàng mà bạn có thể nghĩ đến sẽ kết thúc với các ví dụ phản biện.

Nếu bây giờ bạn có thể tạm gác việc mô tả các nhóm cử chỉ, tôi nghĩ một sự trừu tượng hữu ích là nghĩ về đầu vào của bạn như một trường hợp đặc biệt của một hình ảnh. Có rất nhiều thuật toán trong tầm nhìn máy tính nhằm mục đích gán chữ ký cho hình ảnh dựa trên một tập hợp các tính năng là bất biến tỷ lệ và bất biến tính năng. Tôi nghĩ rằng nổi tiếng nhất là các tính năng SIFT:

http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

Về cơ bản, đầu ra của bạn sẽ là một vectơ mới mang lại trọng số cho các tính năng này. Bạn có thể sử dụng vectơ này và áp dụng phương pháp phỏng đoán cho nó (có thể tìm định mức) và hy vọng rằng nó mô tả những gì bạn đang tìm kiếm. Ngoài ra, bạn có thể đào tạo một trình phân loại để lấy vectơ đặc trưng làm đầu vào và chỉ cho nó biết ấn tượng của bạn về 'entropy' của nó là gì. Mặt trái của điều này là nó sẽ sử dụng các tính năng SIFT phù hợp (chắc chắn là quá mức cần thiết cho vấn đề của bạn) và xây dựng một số loại ánh xạ rất phù hợp. Nhược điểm là bạn phải tự làm rất nhiều nhãn đó và những gì bạn nhận được có thể khó diễn giải hơn, tùy thuộc vào trình phân loại mà bạn sử dụng.

Tôi hy vọng điều này là hữu ích! Rất nhiều thuật toán thị giác máy tính truyền thống cũng có thể phù hợp với bạn ở đây - duyệt nhanh qua wikipedia trong cổng thông tin đó có thể cung cấp cho bạn một số thông tin chi tiết bổ sung.


0

Các ví dụ của bạn nhắc nhở tôi về các bảng chân lý từ đại số boolean và các mạch kỹ thuật số. Trong vương quốc này, bản đồ Karnaugh (http://en.wikipedia.org/wiki/Karnaugh_map) có thể được sử dụng như một công cụ để cung cấp hàm boolean tối thiểu để thể hiện toàn bộ lưới. Ngoài ra, sử dụng danh tính đại số boolean có thể giúp giảm hàm xuống dạng tối thiểu. Đếm số lượng thuật ngữ trong hàm boolean thu nhỏ có thể được sử dụng làm thước đo entropy của bạn. Điều này cung cấp cho bạn đối xứng dọc và ngang cùng với nén hàng xóm liền kề, nhưng thiếu đối xứng đường chéo.

Sử dụng đại số boolean, cả hai trục được dán nhãn từ AE bắt đầu ở góc trên bên trái. Theo cách này, ví dụ C sẽ ánh xạ tới hàm boolean (! A &! E). Đối với các ví dụ khác, các trục sẽ cần phải được dán nhãn riêng (ví dụ: AE, FJ).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.