Làm thế nào để đo lường sự phân tán trong dữ liệu tần số từ?


10

Làm thế nào tôi có thể định lượng lượng phân tán trong một vectơ đếm từ? Tôi đang tìm kiếm một thống kê sẽ cao cho tài liệu A, bởi vì nó chứa nhiều từ khác nhau xảy ra không thường xuyên và thấp cho tài liệu B, vì nó chứa một từ (hoặc một vài từ) thường xảy ra.

Tổng quát hơn, làm thế nào để đo lường sự phân tán hoặc "lây lan" trong dữ liệu danh nghĩa?

Có một cách tiêu chuẩn để làm điều này trong cộng đồng phân tích văn bản?

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Câu trả lời:


10

pipia[ln(1/pi)]b

  1. a=0,b=0

  2. a=2,b=01pi21/pi2k1/kpi2=k(1/k)2=1/kk

  3. a=1,b=1Hexp(H)kH=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

Công thức được tìm thấy trong IJ Good. 1953. Tần số dân số của loài và ước tính các thông số dân số. Biometrika 40: 237-264. www.jstor.org/urdy/2333344 .

Các cơ sở khác cho logarit (ví dụ 10 hoặc 2) đều có thể như nhau theo sở thích hoặc tiền lệ hoặc sự thuận tiện, chỉ với các biến thể đơn giản ngụ ý cho một số công thức ở trên.

Tái khám phá độc lập (hoặc sáng chế lại) biện pháp thứ hai được thể hiện qua một số nguyên tắc và các tên ở trên nằm cách xa danh sách đầy đủ.

Liên kết các biện pháp phổ biến trong một gia đình không chỉ hấp dẫn về mặt toán học. Nó nhấn mạnh rằng có một sự lựa chọn về biện pháp tùy thuộc vào các trọng số tương đối được áp dụng cho các mặt hàng khan hiếm và phổ biến, và do đó làm giảm bất kỳ ấn tượng nào về việc quảng cáo được tạo ra bởi một sự gợi ý nhỏ về các đề xuất rõ ràng tùy tiện. Tài liệu trong một số lĩnh vực bị suy yếu bởi các bài báo và thậm chí các cuốn sách dựa trên những tuyên bố khó hiểu rằng một số biện pháp được tác giả ủng hộ là biện pháp tốt nhất mà mọi người nên sử dụng.

Tính toán của tôi chỉ ra rằng các ví dụ A và B không quá khác nhau ngoại trừ biện pháp đầu tiên:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(Một số người có thể thích thú lưu ý rằng Simpson được đặt tên ở đây (Edward Hugh Simpson, 1922-) giống như được tôn vinh bởi nghịch lý của Simpson. Anh ấy đã làm rất tốt, nhưng anh ấy không phải là người đầu tiên khám phá ra điều gì anh ta được đặt tên, đến lượt nó là nghịch lý của Stigler, đến lượt nó ....)


Đây là một câu trả lời xuất sắc (và dễ thực hiện hơn nhiều so với bài báo Tốt năm 1953;)). Cảm ơn bạn!
dB '

7

Tôi không biết nếu có một cách phổ biến để làm điều đó, nhưng điều này đối với tôi tương tự như các câu hỏi bất bình đẳng trong kinh tế. Nếu bạn coi mỗi từ là một cá nhân và số lượng của chúng tương đương với thu nhập, bạn sẽ quan tâm đến việc so sánh vị trí của các từ nằm giữa các cực trị của mỗi từ có cùng số đếm (bình đẳng hoàn toàn) hoặc một từ có tất cả các số đếm và mọi người khác bằng không. Điều phức tạp là "số không" không xuất hiện, bạn không thể có ít hơn 1 số trong một túi từ như thường được định nghĩa ...

Hệ số Gini của A là 0,18 và của B là 0,43, cho thấy A "bằng" hơn B.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

Tôi quan tâm đến bất kỳ câu trả lời khác quá. Rõ ràng phương sai cũ về số lượng cũng sẽ là điểm khởi đầu, nhưng bạn phải mở rộng quy mô bằng cách nào đó để làm cho nó có thể so sánh được với các túi có kích cỡ khác nhau và do đó số lượng trung bình của mỗi từ khác nhau.


Cuộc gọi tốt - hệ số Gini cũng là suy nghĩ đầu tiên của tôi! Tuy nhiên, tìm kiếm trên học giả google, tôi không thể tìm thấy nhiều tiền lệ cho việc sử dụng nó với dữ liệu văn bản. Tôi tự hỏi liệu cộng đồng truy xuất văn bản / NLP có biện pháp chuẩn hơn cho loại điều này không ...
dB '

Xem ra: theo tính của tôi, Gini đã được đặt tên như ít nhất ba biện pháp khác nhau. Lịch sử có thể phòng thủ trong từng trường hợp, nhưng mọi người cần xem công thức được sử dụng.
Nick Cox

1
Điểm hay @NickCox - Tôi đã nghĩ về điều này, vì được sử dụng cho bất bình đẳng, mà tôi nghĩ là cách sử dụng phổ biến nhất: ellisp.github.io/blog/2017/08/05/ weighted-igin Tôi đã thấy các phương pháp khác nhau của ước tính / tính toán nó nhưng tất cả đều có cùng định nghĩa cơ bản, trong bối cảnh này. Tôi biết những người học máy sử dụng nó cho một cái gì đó khác biệt nhưng không thấy lý do của họ ...
Peter Ellis

1
@dB 'Tôi tìm thấy bài viết này về việc sử dụng Gini trong một ứng dụng văn bản: tố tụng.mlr.press / v10 / sanasam10a / sanasam10a.pdf (Tôi thích câu trả lời này cho câu trả lời được chấp nhận, đơn giản vì nó là công việc tốt nhất để phân biệt A của bạn và B!)
Darren Cook

5

Bài viết này có một đánh giá về các biện pháp phân tán tiêu chuẩn được sử dụng bởi các nhà ngôn ngữ học. Chúng được liệt kê dưới dạng các biện pháp phân tán một từ (Chúng đo lường sự phân tán của các từ trên các phần, trang, v.v.) nhưng có thể được sử dụng như là các biện pháp phân tán tần số từ. Các thống kê tiêu chuẩn dường như là:

  1. lớn nhất nhỏ nhất
  2. độ lệch chuẩn
  3. CV
  4. χ2

Kinh điển là:

  1. D=1CVn1
  2. S=N(i=1nni)2n
  3. D2=(log2Ni=1nnilog2niN)/log2(n)
  4. D3=1χ24N

Nnni

Văn bản cũng đề cập đến hai biện pháp phân tán nữa, nhưng chúng dựa vào định vị không gian của các từ, vì vậy điều này không thể áp dụng được cho mô hình từ.

  • Lưu ý : Tôi đã thay đổi ký hiệu gốc từ bài viết, để làm cho các công thức phù hợp hơn với ký hiệu chuẩn.

fxi

vi

1
Tại sao các phương trình từ nguồn không được sao chép chính xác (nó không chỉ là sự thay đổi nhãn trong biểu thức mà còn là sự thay đổi của biểu thức, hoặc ít nhất không phải là sự thay đổi nhất quán của nhãn / biến)?
Sextus Empiricus

@NickCox Cảm ơn bạn đã nắm bắt được điều đó, tôi đã sửa các công thức để chỉ bao gồm số lượng được xác định.
Chris Novak

@MartijnWeterings Bạn nói đúng rằng ban đầu bài viết xử lý các số liệu phân tán từ đơn, mặc dù chúng có vẻ khái quát đến tần số từ một cách tầm thường. Chỉ trong trường hợp tôi bao gồm thông tin đó trong câu trả lời. Tôi đã thay đổi ký hiệu ban đầu để áp dụng các ký hiệu này cho túi mô hình từ (thay thế f bằng N và v_i bằng n_i). Tôi đã thêm một ghi chú để ký tên này, nhưng nếu bạn nghĩ rằng nó vẫn còn sai lệch, tôi có thể cung cấp một lời biện minh dài hơn trong câu trả lời.
Chris Novak

4

Việc đầu tiên tôi sẽ làm là tính toán entropy của Shannon. Bạn có thể sử dụng gói R infotheo, chức năng entropy(X, method="emp"). Nếu bạn quấn natstobits(H)quanh nó, bạn sẽ nhận được entropy của nguồn này theo bit.


3

p(p1,...,pn)

H¯(p)pilnpilnn.

0H¯(p)1

  • Bất đẳng thức cực đoan: Tất cả số đếm nằm trong một số loại . Trong trường hợp này, chúng ta có và điều này mang lại cho chúng ta .p i = I ( i = k ) ˉ H ( p ) = 0kpi=I(i=k)H¯(p)=0

  • Bình đẳng cực độ: Tất cả các số đều bằng nhau trên tất cả các loại. Trong trường hợp này, chúng tôi có và điều này mang lại cho chúng tôi .ˉ H ( p ) = 1pi=1/nH¯(p)=1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.