Tôi có một tệp văn bản chứa các tweet và tôi bắt buộc phải đếm số lần một từ được đề cập trong tweet. Ví dụ: tệp chứa:
Apple iPhone X is going to worth a fortune
The iPhone X is Apple's latest flagship iPhone. How will it pit against it's competitors?
Và giả sử tôi muốn đếm số lần từ iPhone được đề cập trong tệp. Vì vậy, đây là những gì tôi đã cố gắng.
cut -f 1 Tweet_Data | grep -i "iPhone" | wc -l
Nó chắc chắn hoạt động nhưng tôi bối rối về lệnh 'wc' trong unix. Sự khác biệt là gì nếu tôi thử một cái gì đó như:
cut -f 1 Tweet_Data | grep -c "iPhone"
-c được sử dụng thay thế ở đâu? Cả hai đều mang lại kết quả khác nhau trong một tệp lớn chứa đầy các tweet và tôi bối rối về cách thức hoạt động của nó. Phương pháp nào là cách chính xác để đếm sự xuất hiện?
cut -f1
đang cắt giảm dựa trên các tab, điều này không làm được gì nhiều ở đây. Bạn có chắc chắn rằngwc -l
nó thực sự mang lại cho bạn số đếm chính xác? Nó sẽ hiển thị 2 ở đây, nhưng tôi đếm 3 trường hợp của "iPhone".