Câu hỏi được gắn thẻ «clustering»

Phân tích hoặc phân cụm cụm là nhiệm vụ nhóm một nhóm các đối tượng theo cách các đối tượng trong cùng một nhóm (được gọi là cụm) giống nhau hơn (theo nghĩa này hay nghĩa khác) với nhau so với các nhóm trong các nhóm khác (cụm) . Đây là nhiệm vụ chính của khai thác dữ liệu thăm dò và là một kỹ thuật phổ biến để phân tích dữ liệu thống kê, được sử dụng trong nhiều lĩnh vực, bao gồm học máy, nhận dạng mẫu, phân tích hình ảnh, truy xuất thông tin, v.v.

2
Phân cụm khách truy cập duy nhất theo useragent, ip, session_id
Đưa ra dữ liệu truy cập trang web trong biểu mẫu session_id, ip, user_agentvà dấu thời gian tùy chọn, theo các điều kiện bên dưới, làm thế nào tốt nhất bạn có thể phân cụm các phiên thành khách truy cập duy nhất? session_id: là một id được cung cấp …
15 clustering 


2
K-nghĩa nhanh như thuật toán cho 10 ^ 10 điểm?
Tôi đang tìm cách làm k-nghĩa là phân cụm trên một tập hợp các điểm 10 chiều. Bắt: có 10 ^ 10 điểm . Tôi đang tìm kiếm chỉ trung tâm và kích thước của các cụm lớn nhất (giả sử 10 đến 100 cụm); Tôi không quan tâm đến …



1
MinHashing vs SimHashing
Giả sử tôi có năm bộ tôi muốn phân cụm. Tôi hiểu rằng kỹ thuật SimHashing được mô tả ở đây: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ có thể mang lại ba cụm ( {A}, {B,C,D}và {E}), ví dụ, nếu kết quả của nó là: A -> h01 B -> h02 C -> h02 D …

1
Tôi nên sử dụng bao nhiêu tế bào LSTM?
Có bất kỳ quy tắc nào (hoặc quy tắc thực tế) liên quan đến số lượng tế bào LSTM tối thiểu, tối đa và "hợp lý" mà tôi nên sử dụng không? Cụ thể tôi có liên quan đến BasicLSTMCell từ TensorFlow và num_unitstài sản. Hãy giả sử rằng tôi …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


4
Sử dụng phân cụm trong xử lý văn bản
Xin chào, đây là câu hỏi đầu tiên của tôi trong ngăn xếp Khoa học dữ liệu. Tôi muốn tạo một thuật toán để phân loại văn bản. Giả sử tôi có một bộ lớn các văn bản và bài viết. Hãy nói khoảng 5000 văn bản đơn giản. Trước …

3
Ngôn ngữ tốt nhất cho máy tính khoa học [đóng]
Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 




3
Mối liên quan giữa tích chập trong toán học và CNN
Tôi đã đọc giải thích về tích chập và hiểu nó ở một mức độ nào đó. Ai đó có thể giúp tôi hiểu hoạt động này liên quan đến sự tích chập trong Mạng lưới thần kinh Convolutional như thế nào không? Là bộ lọc như chức năng gáp …
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
Khi nào nên chọn hồi quy tuyến tính hoặc cây quyết định hoặc hồi quy rừng ngẫu nhiên? [đóng cửa]
Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.