Thống kê và dữ liệu lớn text-mining

2

Tại sao n-gram được sử dụng trong nhận dạng ngôn ngữ văn bản thay vì từ?

Trong hai thư viện nhận dạng ngôn ngữ phổ biến, Compact Language dò 2 cho C ++ và trình phát hiện ngôn ngữ cho java, cả hai đều sử dụng n-gram (dựa trên ký tự) để trích xuất các tính năng văn bản. Tại sao một túi từ (từ đơn …

12 machine-learning classification text-mining natural-language

7

Các gói khai thác văn bản cho R là gì và có các chương trình khai thác văn bản nguồn mở khác không?

Bạn có thể giới thiệu gói khai thác văn bản trong R có thể được sử dụng đối với khối lượng dữ liệu lớn không? Thứ hai, có GUI nào cho bất kỳ gói khai thác văn bản nào trong R không? Thứ ba, có một chương trình khai thác …

12 r text-mining

5

Sách hay về khai thác văn bản?

Xin chào Tôi muốn biết nếu có một số cuốn sách hay về khai thác và phân loại văn bản với một số nghiên cứu điển hình?. Nếu không một số giấy tờ / tạp chí có thể truy cập công khai sẽ làm. Nếu họ minh họa ví dụ …

11 references text-mining

3

Túi từ vs mô hình không gian vector?

Sự khác biệt / s giữa các mô hình biểu diễn văn bản này là gì: Túi từ và mô hình không gian vectơ?

11 machine-learning text-mining

1

IDF tăng dần (Tần số tài liệu nghịch đảo)

Trong một ứng dụng khai thác văn bản, một cách tiếp cận đơn giản là sử dụng heuristic để tạo các vectơ như các biểu diễn thưa thớt nhỏ gọn của các tài liệu. Điều này tốt cho cài đặt hàng loạt, trong đó toàn bộ kho được biết đến …

11 time-series text-mining

1

Hiểu cách sử dụng logarit trong logarit TF-IDF

Lúc đó tôi đang đọc sách: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#DefDef Nhưng tôi dường như không thể hiểu chính xác tại sao công thức được xây dựng theo cách của nó. Những gì tôi làm Hiểu: iDF ở một mức độ nào đó sẽ đo tần suất xuất hiện của một thuật ngữ S …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Liên quan đến việc sử dụng mô hình bigram (N-gram) để xây dựng vector tính năng cho tài liệu văn bản

Một cách tiếp cận truyền thống về xây dựng tính năng để khai thác văn bản là cách tiếp cận theo từ và có thể được tăng cường bằng cách sử dụng tf-idf để thiết lập vectơ đặc trưng mô tả tài liệu văn bản đã cho. Hiện tại, tôi …

10 machine-learning data-mining text-mining natural-language language-models

1

Là giải thích về độ thưa thớt chính xác?

Theo tài liệu của removeSparseTermschức năng từ tmgói, đây là những gì thưa thớt đòi hỏi: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only …

10 r text-mining natural-language

1

Tại sao thêm một trong tần số tài liệu nghịch đảo?

Sách giáo khoa của tôi liệt kê idf là ở đâul o g( 1 + Nnt)tôiog(1+Nnt)log(1+\frac{N}{n_t}) NNN : Số lượng tài liệu ntntn_t : Số tài liệu có chứa thuật ngữttt Wikipedia liệt kê công thức này dưới dạng phiên bản được làm mịn của thực tế . Điều đó …

9 text-mining natural-language smoothing

2

VectorSource và VCorpus trong gói 'tm' (Khai thác văn bản) trong R là gì

Tôi không chắc chắn chính xác VectorSource và VCorpus là gì trong gói 'tm'. Các tài liệu không rõ ràng về những điều này, bất cứ ai có thể làm cho tôi hiểu bằng các thuật ngữ đơn giản?

9 r text-mining

1

Sử dụng khai thác văn bản / công cụ xử lý ngôn ngữ tự nhiên cho toán kinh tế lượng

Tôi không chắc liệu câu hỏi này có hoàn toàn phù hợp ở đây không, nếu không, xin vui lòng xóa. Tôi là một sinh viên tốt nghiệp kinh tế. Đối với một dự án điều tra các vấn đề về bảo hiểm xã hội, tôi có quyền truy cập …

9 machine-learning data-mining econometrics text-mining natural-language

1

Làm thế nào để so sánh các sự kiện quan sát so với dự kiến?

Giả sử tôi có một mẫu tần số gồm 4 sự kiện có thể xảy ra: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 và tôi có xác suất dự kiến của các sự kiện của tôi sẽ xảy ra: p1 - 0.2 p2 - 0.1 …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Hiểu và áp dụng phân tích tình cảm

Tôi vừa được giao một dự án tiến hành phân tích tình cảm cho một số bộ sưu tập tài liệu. Bởi Googling, rất nhiều nghiên cứu liên quan đến tình cảm đã xuất hiện. Câu hỏi của tôi là: Các phương pháp / thuật toán chính để phân tích …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

Làm thế nào để thực hiện nhiều bài kiểm tra chi bình phương sau hoc trên bảng 2 X 3?

Tập dữ liệu của tôi bao gồm tổng tỷ lệ tử vong hoặc tỷ lệ sống của một sinh vật ở ba loại địa điểm, trong nước, giữa kênh và ngoài khơi. Các số trong bảng dưới đây đại diện cho số lượng trang web. 100% Mortality 100% Survival Inshore …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

3

Làm thế nào bạn sẽ phân loại / trích xuất thông tin ra khỏi mô tả công việc?

Tôi có một loạt các mô tả công việc được nhập bởi người dùng. Có tất cả các loại lỗi chính tả và dữ liệu xấu. I E: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction …

8 classification categorical-data text-mining

Câu hỏi được gắn thẻ «text-mining»