Cập nhật giá trị hàng nơi đáp ứng điều kiện nhất định trong gấu trúc

Question 1

Giả sử tôi có khung dữ liệu sau:

Cách hiệu quả nhất để cập nhật các giá trị của cột feat và another_feat trong đó luồng là số 2 là gì?

Đây có phải là nó?

for index, row in df.iterrows():
    if df1.loc[index,'stream'] == 2:
       # do something

CẬP NHẬT: Phải làm gì nếu tôi có hơn 100 cột? Tôi không muốn đặt tên rõ ràng cho các cột mà tôi muốn cập nhật. Tôi muốn chia giá trị của mỗi cột cho 2 (ngoại trừ cột luồng).

Vì vậy, để rõ ràng mục tiêu của tôi là:

Chia tất cả các giá trị cho 2 trong số tất cả các hàng có luồng 2, nhưng không thay đổi cột luồng

Question 2

Tôi nghĩ bạn có thể sử dụng locnếu bạn cần cập nhật hai cột thành cùng một giá trị:

df1.loc[df1['stream'] == 2, ['feat','another_feat']] = 'aaaa'
print df1
   stream        feat another_feat
a       1  some_value   some_value
b       2        aaaa         aaaa
c       2        aaaa         aaaa
d       3  some_value   some_value

Nếu bạn cần cập nhật riêng, một tùy chọn là sử dụng:

df1.loc[df1['stream'] == 2, 'feat'] = 10
print df1
   stream        feat another_feat
a       1  some_value   some_value
b       2          10   some_value
c       2          10   some_value
d       3  some_value   some_value

Một lựa chọn phổ biến khác là sử dụng numpy.where:

df1['feat'] = np.where(df1['stream'] == 2, 10,20)
print df1
   stream  feat another_feat
a       1    20   some_value
b       2    10   some_value
c       2    10   some_value
d       3    20   some_value

CHỈNH SỬA: Nếu bạn cần chia tất cả các cột mà không streamcó điều kiện True, hãy sử dụng:

print df1
   stream  feat  another_feat
a       1     4             5
b       2     4             5
c       2     2             9
d       3     1             7

#filter columns all without stream
cols = [col for col in df1.columns if col != 'stream']
print cols
['feat', 'another_feat']

df1.loc[df1['stream'] == 2, cols ] = df1 / 2
print df1
   stream  feat  another_feat
a       1   4.0           5.0
b       2   2.0           2.5
c       2   1.0           4.5
d       3   1.0           7.0

Question 3

Bạn có thể làm điều tương tự với .ix, như sau:

In [1]: df = pd.DataFrame(np.random.randn(5,4), columns=list('abcd'))

In [2]: df
Out[2]: 
          a         b         c         d
0 -0.323772  0.839542  0.173414 -1.341793
1 -1.001287  0.676910  0.465536  0.229544
2  0.963484 -0.905302 -0.435821  1.934512
3  0.266113 -0.034305 -0.110272 -0.720599
4 -0.522134 -0.913792  1.862832  0.314315

In [3]: df.ix[df.a>0, ['b','c']] = 0

In [4]: df
Out[4]: 
          a         b         c         d
0 -0.323772  0.839542  0.173414 -1.341793
1 -1.001287  0.676910  0.465536  0.229544
2  0.963484  0.000000  0.000000  1.934512
3  0.266113  0.000000  0.000000 -0.720599
4 -0.522134 -0.913792  1.862832  0.314315

BIÊN TẬP

Sau thông tin bổ sung, phần sau sẽ trả về tất cả các cột - nơi đáp ứng một số điều kiện - với các giá trị giảm đi một nửa:

>> condition = df.a > 0
>> df[condition][[i for i in df.columns.values if i not in ['a']]].apply(lambda x: x/2)

Tôi hi vọng cái này giúp được!