Khoa học dữ liệu

2

Tôi đã xây dựng một mạng lưới thần kinh nhân tạo trong python bằng cách sử dụng chức năng tối ưu hóa scipy.optizes.minizing (Conjugate gradient). Tôi đã thực hiện kiểm tra độ dốc, kiểm tra lại mọi thứ, v.v. và tôi khá chắc chắn rằng nó hoạt động chính xác. …

10 machine-learning python neural-network

2

Phương pháp hiệu quả nhất để tối ưu hóa siêu tham số trong scikit-learn là gì?

Tổng quan về quá trình tối ưu hóa siêu tham số trong scikit-learn có ở đây . Tìm kiếm lưới đầy đủ sẽ tìm thấy bộ siêu đường kính tối ưu cho một mô hình. Nhược điểm là tìm kiếm lưới đầy đủ là chậm. Tìm kiếm ngẫu nhiên nhanh …

10 scikit-learn hyperparameter hyperparameter-tuning grid-search randomized-algorithms

2

Là max_depth trong scikit tương đương với việc cắt tỉa trong cây quyết định?

Tôi đã phân tích trình phân loại được tạo bằng cây quyết định. Có một tham số điều chỉnh được gọi là max_depth trong cây quyết định của scikit. Đây có phải là tương đương với việc cắt tỉa một cây quyết định? Nếu không, làm thế nào tôi có …

10 machine-learning python scikit-learn decision-trees supervised-learning

2

Liệu Batch Normalization có ý nghĩa đối với chức năng kích hoạt ReLU không?

Batch Normalization được mô tả trong này giấy như một bình thường hóa các đầu vào cho một chức năng kích hoạt với các biến quy mô và thay đổi và β . Bài viết này chủ yếu mô tả bằng cách sử dụng chức năng kích hoạt sigmoid, có …

10 machine-learning neural-network deep-learning batch-normalization

3

Mối liên quan giữa tích chập trong toán học và CNN

Tôi đã đọc giải thích về tích chập và hiểu nó ở một mức độ nào đó. Ai đó có thể giúp tôi hiểu hoạt động này liên quan đến sự tích chập trong Mạng lưới thần kinh Convolutional như thế nào không? Là bộ lọc như chức năng gáp …

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

2

Làm thế nào để backpropagation hoạt động thông qua lớp Max Pooling khi thực hiện một đợt?

Giả sử rằng chúng tôi đang sử dụng cỡ lô 100 mẫu để học. Vì vậy, trong mỗi lô, trọng lượng của mọi nơ-ron (và sai lệch, v.v.) đang được cập nhật bằng cách thêm vào tỷ lệ trừ của tỷ lệ học * giá trị lỗi trung bình mà …

10 neural-network deep-learning backpropagation

3

Là lựa chọn tính năng cần thiết?

Tôi muốn chạy một số mô hình học máy như rừng ngẫu nhiên, tăng cường độ dốc hoặc SVM trên tập dữ liệu của tôi. Có hơn 200 biến dự đoán trong tập dữ liệu của tôi và các lớp mục tiêu của tôi là một biến nhị phân. Tôi …

10 machine-learning predictive-modeling feature-selection random-forest

3

Làm thế nào để làm hàng loạt sản phẩm bên trong trong Tensorflow?

Tôi có hai tenor a:[batch_size, dim] b:[batch_size, dim]. Tôi muốn làm sản phẩm bên trong cho mỗi cặp trong lô, tạo c:[batch_size, 1], ở đâu c[i,0]=a[i,:].T*b[i,:]. Làm sao?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

3

Khi nào bộ nhớ cache hết hạn cho RDD trong pyspark?

Chúng tôi sử dụng .cache()trên RDD để lưu bộ đệm dữ liệu liên tục vào bộ dữ liệu, Mối quan tâm của tôi là khi bộ đệm này sẽ hết hạn?. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

Khi nào nên chọn hồi quy tuyến tính hoặc cây quyết định hoặc hồi quy rừng ngẫu nhiên? [đóng cửa]

Đã đóng cửa . Câu hỏi này cần được tập trung hơn . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó chỉ tập trung vào một vấn đề bằng cách chỉnh sửa bài đăng này . Đóng …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

3

Làm cách nào tôi có thể phân loại văn bản xem xét thứ tự từ, thay vì chỉ sử dụng cách tiếp cận từ ngữ?

Tôi đã tạo một trình phân loại Naive Bayes sử dụng kỹ thuật bag-of-words để phân loại các bài đăng spam trên bảng tin. Nó hoạt động, nhưng tôi nghĩ rằng tôi có thể nhận được kết quả tốt hơn nhiều nếu các mô hình của tôi xem xét thứ …

10 classification

4

Dữ liệu đa lớp xiên

Tôi có một bộ dữ liệu chứa ~ 100.000 mẫu của 50 lớp. Tôi đã sử dụng SVM với kernel RBF để huấn luyện và dự đoán dữ liệu mới. Vấn đề là bộ dữ liệu bị lệch về các lớp khác nhau. Ví dụ: Lớp 1 - 30 (~ …

10 classification svm

3

Dữ liệu thương mại NASDAQ

Tôi đang cố gắng tìm dữ liệu chứng khoán để thực hành, liệu có một nguồn lực tốt cho việc này? Tôi đã tìm thấy điều này: ftp://emi.nasdaq.com/ITCH/ nhưng nó chỉ có năm hiện tại. Tôi đã có một cách để phân tích cú pháp giao thức, nhưng muốn có …

10 data-mining dataset

1

Mô hình khái quát và phân biệt đối xử là gì? Chúng được sử dụng như thế nào trong Xử lý ngôn ngữ tự nhiên?

Câu hỏi này hỏi về thuật toán tổng quát và phân biệt đối xử, nhưng ai đó có thể đưa ra một ví dụ về sự khác biệt giữa các hình thức này khi áp dụng vào Xử lý ngôn ngữ tự nhiên không? Các mô hình thế hệ và …

10 nlp language-model

3

Mối quan hệ nghịch đảo giữa chính xác và thu hồi

Tôi đã thực hiện một số tìm kiếm để tìm hiểu độ chính xác và nhớ lại và tôi thấy một số biểu đồ biểu thị mối quan hệ nghịch đảo giữa độ chính xác và thu hồi và tôi bắt đầu suy nghĩ về nó để làm rõ chủ …

10 accuracy confusion-matrix