Khoa học dữ liệu text-mining

1

Làm thế nào để xác định độ phức tạp của một câu tiếng Anh?

Tôi đang làm việc trên một ứng dụng để giúp mọi người học tiếng Anh như ngôn ngữ thứ hai. Tôi đã xác nhận rằng các câu giúp trong việc học một ngôn ngữ bằng cách cung cấp thêm ngữ cảnh. Tôi đã làm điều đó bằng cách thực hiện …

10 machine-learning classification nlp text-mining

1

Word2vec cần bao nhiêu dữ liệu đào tạo?

Tôi muốn so sánh sự khác biệt giữa cùng một từ được đề cập trong các nguồn khác nhau. Đó là, cách các tác giả khác nhau trong cách sử dụng các từ không xác định, chẳng hạn như "dân chủ". Một kế hoạch ngắn gọn là Lấy những cuốn …

10 text-mining word-embeddings

3

Làm thế nào để làm hàng loạt sản phẩm bên trong trong Tensorflow?

Tôi có hai tenor a:[batch_size, dim] b:[batch_size, dim]. Tôi muốn làm sản phẩm bên trong cho mỗi cặp trong lô, tạo c:[batch_size, 1], ở đâu c[i,0]=a[i,:].T*b[i,:]. Làm sao?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Khi nào nên chọn hồi quy tuyến tính hoặc cây quyết định hoặc hồi quy rừng ngẫu nhiên? [đóng cửa]

Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Những kỹ thuật máy / học sâu / nlp nào được sử dụng để phân loại một từ đã cho là tên, số điện thoại di động, địa chỉ, email, tiểu bang, quận, thành phố, v.v.

Tôi đang cố gắng tạo ra một mô hình thông minh có thể quét một tập hợp các từ hoặc chuỗi và phân loại chúng thành tên, số điện thoại di động, địa chỉ, thành phố, tiểu bang, quốc gia và các thực thể khác bằng cách sử dụng máy …

9 machine-learning deep-learning text-mining natural-language-process

4

Đề xuất bộ dữ liệu đào tạo phân loại văn bản

Những bộ dữ liệu có sẵn miễn phí nào tôi có thể sử dụng để huấn luyện bộ phân loại văn bản? Chúng tôi đang cố gắng tăng cường sự tham gia của người dùng bằng cách giới thiệu nội dung có liên quan nhất cho anh ấy, vì vậy …

9 machine-learning classification dataset clustering text-mining

5

Phân cụm với sự tương tự cosin

Tôi có một bộ dữ liệu lớn và sự tương đồng cosin giữa chúng. Tôi muốn phân cụm chúng bằng cách sử dụng độ tương tự cosine để đặt các đối tượng tương tự lại với nhau mà không cần chỉ định trước số lượng cụm mà tôi mong đợi. …

8 machine-learning data-mining clustering text-mining

3

Làm thế nào để đánh giá phân cụm văn bản?

Những số liệu nào có thể được sử dụng để đánh giá các mô hình phân cụm văn bản? Tôi đã sử dụng tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Làm thế nào để quyết định mô hình nào …

8 machine-learning clustering text-mining

4

Phân loại email trong R

Tôi đang làm việc trong một dự án ở R nơi tôi có khoảng 1200 email từ một công ty, hầu hết trong số đó được gắn nhãn lớp 1 hoặc lớp , là các loại yêu cầu. Khoảng 1000 email được dán nhãn lớp và 200 email được gắn …

8 machine-learning r text-mining

4

Làm thế nào để học phát hiện email spam?

Tôi muốn tìm hiểu làm thế nào một trình phát hiện thư rác được thực hiện. Tôi không cố gắng xây dựng một sản phẩm thương mại, nó sẽ là một bài tập học tập nghiêm túc đối với tôi. Do đó, tôi đang tìm kiếm các tài nguyên, chẳng …

8 machine-learning classification text-mining

1

Những thuật toán phân loại nào cần thử để phân loại dữ liệu văn bản thành 300 loại

Tôi có 40000 hàng dữ liệu văn bản của miền chăm sóc sức khỏe. Dữ liệu có một cột cho văn bản (2-5 câu) và một cột cho thể loại của nó. Tôi muốn phân loại nó thành 300 loại. Một số loại là độc lập trong khi một số …

8 machine-learning classification nlp text-mining

1

Sự khác biệt giữa tf-idf và tf với Rừng ngẫu nhiên

Tôi đang giải quyết vấn đề phân loại văn bản bằng cách sử dụng Rừng ngẫu nhiên làm phân loại và cách tiếp cận từ ngữ. Tôi đang sử dụng triển khai cơ bản của Rừng ngẫu nhiên (hiện diện trong scikit), điều này tạo ra một điều kiện nhị …

8 classification text-mining random-forest

1

Lỗi R khi sử dụng gói tm (khai thác văn bản)

Tôi đang cố gắng sử dụng gói tm để chuyển đổi một vectơ của chuỗi văn bản thành phần tử khối. Mã của tôi trông giống như thế này Corpus(d1$Yes) trong đó d1$Yesmột yếu tố với 124 cấp độ, mỗi cấp có chứa một chuỗi văn bản. Ví dụ, d1$Yes[246] …

8 r text-mining

1

phân loại văn bản học sâu nào tốt cho dữ liệu sức khỏe

Tôi có một bộ dữ liệu như thế này: postID Sentence drugYesOrNo 1 He went out with his friends 2 He behaved nicely while talking with me 3 He stopped using drugs after a while 1 4 He did not meet any friend during last week 1 He slowly cut …

7 machine-learning deep-learning classification text-mining

3

Làm thế nào để âm mưu cụm trong một cách tốt đẹp?

Tôi có một tập dữ liệu văn bản lớn được nhóm lại. Mỗi cụm được đại diện bởi một tâm của các văn bản được vector hóa thuộc về nó, số lượng văn bản, ngày tạo và các tham số khác. Tôi không thể vẽ các cụm trong một không …

7 clustering text-mining plotting matplotlib

Câu hỏi được gắn thẻ «text-mining»