Tài liệu cho biết:
http://pandas.pydata.org/pandas-docs/dev/basics.html
"Các giá trị liên tục có thể được tùy ý sử dụng các chức năng cut (thùng dựa trên giá trị) và qcut (thùng dựa trên lượng tử mẫu)"
Nghe có vẻ rất trừu tượng đối với tôi ... Tôi có thể thấy sự khác biệt trong ví dụ bên dưới nhưng qcut (lượng tử mẫu) thực sự làm / có nghĩa là gì? Khi nào bạn sử dụng qcut so với cắt?
Cảm ơn.
factors = np.random.randn(30)
In [11]:
pd.cut(factors, 5)
Out[11]:
[(-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (0.575, 1.561], ..., (-0.411, 0.575], (-1.397, -0.411], (0.575, 1.561], (-2.388, -1.397], (-0.411, 0.575]]
Length: 30
Categories (5, object): [(-2.388, -1.397] < (-1.397, -0.411] < (-0.411, 0.575] < (0.575, 1.561] < (1.561, 2.547]]
In [14]:
pd.qcut(factors, 5)
Out[14]:
[(-0.348, 0.0899], (-0.348, 0.0899], (0.0899, 1.19], (0.0899, 1.19], (0.0899, 1.19], ..., (0.0899, 1.19], (-1.137, -0.348], (1.19, 2.547], [-2.383, -1.137], (-0.348, 0.0899]]
Length: 30
Categories (5, object): [[-2.383, -1.137] < (-1.137, -0.348] < (-0.348, 0.0899] < (0.0899, 1.19] < (1.19, 2.547]]`