Khoa học dữ liệu

Hỏi và đáp cho các chuyên gia khoa học dữ liệu, các chuyên gia về Machine Learning và những người quan tâm đến việc tìm hiểu thêm về lĩnh vực này



1
Tính toán độ tương tự cosin trong Apache Spark
Tôi có một DataFrame với IDF của một số từ nhất định được tính toán. Ví dụ (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Bây giờ đưa ra một truy vấn Q, tôi có thể tính TF-IDF của truy vấn này. Làm cách nào để tính toán độ tương tự cosin …





2
Các bước học máy
Lựa chọn nào trong các bước dưới đây là tùy chọn chính xác khi tạo mô hình dự đoán? Lựa chọn 1: Trước tiên, loại bỏ các yếu tố dự đoán xấu rõ ràng nhất và tiền xử lý còn lại nếu cần, sau đó huấn luyện các mô hình …

1
Tại sao Tái cấu trúc trong Bộ tạo tự động sử dụng Chức năng kích hoạt tương tự như Kích hoạt chuyển tiếp mà không phải là nghịch đảo?
Giả sử bạn có một lớp đầu vào với n nơ-ron và lớp ẩn đầu tiên có nơ-ron, với điển hình là . Sau đó, bạn tính toán hoạt động của nơron thứ trong lớp ẩn bằng cáchm &lt; n a j jmmmm&lt;nm&lt;nm < najaja_jjjj f tanh sigmoidaj=f(∑i=1..nwi,jxi+bj)aj=f(∑i=1..nwi,jxi+bj)a_j = f\left(\sum\limits_{i=1..n} …



2
Kích thước cấm của rừng ngẫu nhiên khi lưu vào đĩa
Khi được lưu vào đĩa bằng cPickle: /programming/20662023/save-python-random-forest-model-to-file , khu rừng ngẫu nhiên của tôi là 6,57 GB. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Tôi muốn sử dụng chính khu rừng để đưa ra dự đoán thông qua API python được lưu trữ trên Heroku - tất nhiên, kích …




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.