Khoa học dữ liệu data-mining

4

K-nghĩa là: một số cách tốt để chọn một tập hợp ban đầu hiệu quả là gì?

Khi một khởi tạo ngẫu nhiên của centroid được sử dụng, các lần chạy K-mean khác nhau sẽ tạo ra tổng SSE khác nhau. Và nó rất quan trọng trong việc thực hiện thuật toán. Một số phương pháp hiệu quả để giải quyết vấn đề này là gì? Cách …

17 data-mining clustering k-means

3

Phân loại phân biệt đối xử một lớp với nền âm tính không cân bằng, không đồng nhất?

Tôi đang làm việc để cải thiện trình phân loại được giám sát hiện có, để phân loại các chuỗi {protein} có thuộc về một lớp cụ thể (tiền chất hormone Neuropeptide) hay không. Có khoảng 1.150 "tích cực" được biết đến, dựa trên nền tảng của khoảng 13 triệu …

16 machine-learning data-mining python classification

5

làm cho bản đồ nhiệt biển lớn hơn

Tôi tạo một corr()df từ một df gốc. Các corr()df ra 70 X 70 và nó là không thể hình dung Heatmap ... sns.heatmap(df). Nếu tôi cố gắng hiển thị corr = df.corr(), bảng không vừa với màn hình và tôi có thể thấy tất cả các mối tương quan. …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Tại sao các bản hòa tấu lại có hiệu quả vô lý

Dường như đã trở thành tiên đề rằng một nhóm người học dẫn đến kết quả mô hình tốt nhất có thể - và nó đang trở nên hiếm hơn rất nhiều, ví dụ, đối với các mô hình đơn lẻ để giành chiến thắng trong các cuộc thi như …

14 machine-learning data-mining predictive-modeling

2

Sử dụng các thuộc tính để phân loại / cụm hồ sơ người dùng

Tôi có một bộ dữ liệu người dùng mua sản phẩm từ một trang web. Các thuộc tính tôi có là id người dùng, vùng (trạng thái) của người dùng, id danh mục của sản phẩm, id từ khóa của sản phẩm, id từ khóa của trang web và số …

14 machine-learning data-mining classification clustering

2

Mục khác nhau dựa trên đề xuất và người dùng dựa trên Mahout

Tôi muốn biết chính xác đề xuất dựa trên người dùng và mục dựa trên người khác nhau như thế nào. Nó định nghĩa rằng Dựa trên người dùng : Đề xuất các mục bằng cách tìm người dùng tương tự. Điều này thường khó mở rộng hơn vì tính …

14 machine-learning data-mining algorithms recommender-system

1

Nhận biết một ngữ pháp trong một chuỗi các mã thông báo mờ

Tôi có tài liệu văn bản chứa chủ yếu danh sách các mục. Mỗi Mục là một nhóm gồm nhiều mã thông báo từ các loại khác nhau: FirstName, LastName, BirthDate, PhoneNumber, City, Nghề nghiệp, v.v ... Mã thông báo là một nhóm từ. Các mặt hàng có thể nằm …

13 data-mining clustering text-mining time-series correlation

1

Neo4j vs OrientDB vs Titan

Tôi đang làm việc trong một dự án khoa học dữ liệu liên quan đến khai thác mối quan hệ xã hội và cần lưu trữ dữ liệu trong một số cơ sở dữ liệu đồ thị. Ban đầu tôi chọn Neo4j làm cơ sở dữ liệu. Nhưng nó nối …

13 data-mining graphs databases social-network-analysis

4

Nghiên cứu trường hợp dữ liệu lớn hoặc ví dụ trường hợp sử dụng

Tôi đã đọc rất nhiều blog \ bài viết về cách các loại ngành công nghiệp khác nhau đang sử dụng Phân tích dữ liệu lớn. Nhưng hầu hết các bài viết này không đề cập đến Những loại dữ liệu các công ty sử dụng. Kích thước của dữ …

13 data-mining bigdata usecase

1

Sự khác biệt giữa một mã hóa nóng và loại bỏ một mã hóa là gì?

Tôi đang đọc một bài thuyết trình và nó khuyên bạn không nên sử dụng một mã hóa ngoài, nhưng nó ổn với một mã hóa nóng. Tôi nghĩ cả hai đều giống nhau. Bất cứ ai có thể mô tả sự khác biệt giữa chúng là gì?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

4

Cây quyết định so với KNN

Trong trường hợp nào tốt hơn là sử dụng cây Quyết định và các trường hợp khác là KNN? Tại sao sử dụng một trong số họ trong một số trường hợp nhất định? Và khác trong các trường hợp khác nhau? (Bằng cách nhìn vào chức năng của nó, …

13 machine-learning data-mining decision-trees

2

Có API nào để thu thập thông tin trừu tượng trên giấy không?

Nếu tôi có một danh sách rất dài các tên giấy, làm thế nào tôi có thể tóm tắt những giấy tờ này từ internet hoặc bất kỳ cơ sở dữ liệu nào? Các tên giấy giống như "Đánh giá tiện ích trong khai thác web cho lĩnh vực sức …

13 data-mining machine-learning

2

Giá vé máy bay - Phân tích nào nên được sử dụng để phát hiện hành vi thiết lập giá cạnh tranh và tương quan giá?

Tôi muốn điều tra hành vi thiết lập giá của các hãng hàng không - cụ thể là cách các hãng hàng không phản ứng với giá của đối thủ cạnh tranh. Như tôi muốn nói kiến thức của tôi về phân tích phức tạp hơn khá hạn chế, tôi …

12 data-mining dataset regression correlation visualization

2

FPGrowth có còn được coi là trạng thái của nghệ thuật trong việc khai thác mô hình thường xuyên không?

Theo như tôi biết về sự phát triển của các thuật toán để giải quyết vấn đề Khai thác mẫu thường xuyên (FPM), con đường cải tiến có một số điểm kiểm tra chính. Đầu tiên, thuật toán Apriori được đề xuất vào năm 1993, bởi Agrawal et al. , …

12 bigdata data-mining efficiency state-of-the-art

4

Có mô hình ngôn ngữ ngoài luồng nào tốt cho python không?

Tôi đang tạo mẫu cho một ứng dụng và tôi cần một mô hình ngôn ngữ để tính toán sự bối rối trên một số câu được tạo. Có mô hình ngôn ngữ được đào tạo nào trong python tôi có thể dễ dàng sử dụng không? Một cái gì …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

Câu hỏi được gắn thẻ «data-mining»