Khoa học dữ liệu

2

Tại sao không luôn luôn sử dụng kỹ thuật tối ưu hóa ADAM?

Có vẻ như trình tối ưu hóa Ước tính Khoảnh khắc Thích ứng (Adam) hầu như luôn hoạt động tốt hơn (nhanh hơn và đáng tin cậy hơn đến mức tối thiểu toàn cầu) khi giảm thiểu chức năng chi phí trong việc đào tạo mạng lưới thần kinh. Tại …

13 neural-network optimization

1

Có bao nhiêu tính năng để lấy mẫu bằng cách sử dụng Rừng ngẫu nhiên

Các trang Wikipedia mà dấu ngoặc kép "The Elements of Learning thống kê" cho biết: Thông thường, đối với một vấn đề phân loại với các tính năng , các tính năng được sử dụng trong mỗi lần phân chia.ppp⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Tôi hiểu rằng đây là một phỏng đoán …

13 statistics random-forest optimization evaluation sampling

1

XGBRegressor so với xgboost.train chênh lệch tốc độ rất lớn?

Nếu tôi huấn luyện mô hình của mình bằng mã sau: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) nó kết thúc sau khoảng 1 phút Nếu tôi huấn …

13 machine-learning python decision-trees xgboost efficiency

1

Làm thế nào để xử lý hệ số 0 trong tính toán Phân loại Naive Bayes?

Nếu tôi có một tập dữ liệu huấn luyện và tôi huấn luyện Bộ phân loại Naive Bayes trên đó và tôi có một giá trị thuộc tính có xác suất bằng không. Làm cách nào để xử lý việc này nếu sau này tôi muốn dự đoán phân loại …

13 classification naive-bayes-classifier

1

Chuyển đổi một cột gấu trúc của kiểu dữ liệu int sang dấu thời gian

Tôi có một khung dữ liệu trong số những thứ khác, chứa một cột về số mili giây được truyền từ 1970-1-1. Tôi cần chuyển đổi cột ints này thành dữ liệu dấu thời gian, do đó cuối cùng tôi có thể chuyển đổi nó thành cột dữ liệu datetime …

13 python time-series data-cleaning pandas

1

Bản đồ nhiệt trên bản đồ trong Python

Chế độ phân tích có một tính năng bản đồ nhiệt đẹp ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Nhưng nó không có lợi cho việc so sánh các bản đồ (chỉ có một bản báo cáo). Những gì họ làm cho phép là dữ liệu được kéo dễ dàng vào một cuốn sổ …

13 python visualization geospatial

1

Truyền ngược qua các lớp gộp tối đa

Tôi có một câu hỏi nhỏ cho câu hỏi này . Tôi hiểu rằng khi truyền ngược qua lớp gộp tối đa, độ dốc được chuyển trở lại theo cách mà nơ ron ở lớp trước được chọn là max nhận được tất cả độ dốc. Điều tôi không chắc …

13 machine-learning neural-network convnet backpropagation

3

Doc2vec (gensim) - Làm thế nào tôi có thể suy ra nhãn của câu không nhìn thấy?

https://radimrehurek.com/gensim/models/doc2vec.html Ví dụ: nếu chúng tôi đã đào tạo doc2vec với "aaaaaAAAAAaaaaaa" - "nhãn 1" Củ cải bbbbbbBBBBBbbbb "-" nhãn 2 " chúng ta có thể suy ra ra aaaaAAAAaaaaAA là nhãn 1 bằng cách sử dụng Doc2vec không? Tôi biết Doc2vec có thể đào tạo vectơ từ và vectơ …

13 gensim

5

Tính năng quan trọng với Scikit-learn Random Forest cho thấy Độ lệch chuẩn rất cao

Tôi đang sử dụng Trình phân loại rừng ngẫu nhiên scikit-learn và tôi muốn vẽ tầm quan trọng của tính năng như trong ví dụ này . Tuy nhiên, kết quả của tôi là hoàn toàn khác nhau, theo nghĩa là độ lệch chuẩn của tính năng quan trọng hầu …

13 python random-forest

1

Sự khác biệt giữa mạng Bayes (động) và HMM là gì?

Tôi đã đọc được rằng các HMM, Bộ lọc hạt và bộ lọc Kalman là những trường hợp đặc biệt của mạng Bayes động. Tuy nhiên, tôi chỉ biết HMM và tôi không thấy sự khác biệt đối với các mạng Bayes động. Ai đó có thể vui lòng giải …

13 bayesian-networks pgm

2

Hồi quy tuyến tính với hàm chi phí không đối xứng?

Tôi muốn dự đoán một số giá trị và tôi đang cố gắng để có được một số dự đoán tối ưu hóa giữa mức thấp nhất có thể, nhưng vẫn lớn hơn . Nói cách khác: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) …

13 machine-learning logistic-regression

1

Nhận biết một ngữ pháp trong một chuỗi các mã thông báo mờ

Tôi có tài liệu văn bản chứa chủ yếu danh sách các mục. Mỗi Mục là một nhóm gồm nhiều mã thông báo từ các loại khác nhau: FirstName, LastName, BirthDate, PhoneNumber, City, Nghề nghiệp, v.v ... Mã thông báo là một nhóm từ. Các mặt hàng có thể nằm …

13 data-mining clustering text-mining time-series correlation

3

Với lớp không cân bằng, tôi có phải sử dụng theo mẫu trên bộ dữ liệu kiểm tra / xác thực của mình không?

Tôi là người mới bắt đầu học máy và tôi đang đối mặt với một tình huống. Tôi đang giải quyết vấn đề Đặt giá thầu theo Thời gian thực, với bộ dữ liệu IPinYou và tôi đang cố gắng thực hiện dự đoán nhấp chuột. Vấn đề là, như …

13 machine-learning dataset sampling

2

Cách tính giá trị trung bình của cột dataframe và tìm 10% hàng đầu

Tôi rất mới với Scala và Spark, và đang thực hiện một số bài tập tự tạo bằng cách sử dụng số liệu thống kê bóng chày. Tôi đang sử dụng lớp trường hợp tạo RDD và gán lược đồ cho dữ liệu và sau đó biến nó thành DataFrame …

13 apache-spark scala

2

Thuật toán hiệu quả để tính toán đường cong ROC cho một bộ phân loại bao gồm một tập hợp các phân loại rời rạc

Giả sử tôi có các trình phân loại C_1 ... C_n không khớp nhau theo nghĩa là không có hai sẽ trả về true trên cùng một đầu vào (ví dụ: các nút trong cây quyết định). Tôi muốn xây dựng một bộ phân loại mới là sự kết hợp …

13 algorithms