Câu hỏi được gắn thẻ «text-mining»

Đề cập đến một tập hợp khai thác dữ liệu liên quan đến việc trích xuất thông tin từ dữ liệu dưới dạng văn bản bằng cách nhận dạng các mẫu. Mục tiêu của khai thác văn bản thường là phân loại một tài liệu nhất định thành một trong một số loại theo cách tự động và để cải thiện hiệu suất này một cách linh hoạt, biến nó thành một ví dụ về học máy. Một ví dụ về loại khai thác văn bản này là các bộ lọc thư rác được sử dụng cho email.



5
Sách hay về khai thác văn bản?
Xin chào Tôi muốn biết nếu có một số cuốn sách hay về khai thác và phân loại văn bản với một số nghiên cứu điển hình?. Nếu không một số giấy tờ / tạp chí có thể truy cập công khai sẽ làm. Nếu họ minh họa ví dụ …


1
IDF tăng dần (Tần số tài liệu nghịch đảo)
Trong một ứng dụng khai thác văn bản, một cách tiếp cận đơn giản là sử dụng heuristic để tạo các vectơ như các biểu diễn thưa thớt nhỏ gọn của các tài liệu. Điều này tốt cho cài đặt hàng loạt, trong đó toàn bộ kho được biết đến …


3
Liên quan đến việc sử dụng mô hình bigram (N-gram) để xây dựng vector tính năng cho tài liệu văn bản
Một cách tiếp cận truyền thống về xây dựng tính năng để khai thác văn bản là cách tiếp cận theo từ và có thể được tăng cường bằng cách sử dụng tf-idf để thiết lập vectơ đặc trưng mô tả tài liệu văn bản đã cho. Hiện tại, tôi …

1
Là giải thích về độ thưa thớt chính xác?
Theo tài liệu của removeSparseTermschức năng từ tmgói, đây là những gì thưa thớt đòi hỏi: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only …




1
Làm thế nào để so sánh các sự kiện quan sát so với dự kiến?
Giả sử tôi có một mẫu tần số gồm 4 sự kiện có thể xảy ra: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 và tôi có xác suất dự kiến ​​của các sự kiện của tôi sẽ xảy ra: p1 - 0.2 p2 - 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
Làm thế nào để thực hiện nhiều bài kiểm tra chi bình phương sau hoc trên bảng 2 X 3?
Tập dữ liệu của tôi bao gồm tổng tỷ lệ tử vong hoặc tỷ lệ sống của một sinh vật ở ba loại địa điểm, trong nước, giữa kênh và ngoài khơi. Các số trong bảng dưới đây đại diện cho số lượng trang web. 100% Mortality 100% Survival Inshore …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.