Tôi cần hỗ trợ với một dự án ML mà tôi hiện đang cố gắng tạo.
Tôi nhận được rất nhiều hóa đơn từ rất nhiều nhà cung cấp khác nhau - tất cả đều được bố trí độc đáo. Tôi cần trích xuất 3 yếu tố chính từ hóa đơn. Cả 3 yếu tố này đều nằm trong một bảng / chi tiết đơn hàng cho tất cả các hóa đơn.
Các 3 yếu tố là:
- 1 : Số thuế quan (chữ số)
- 2 : Số lượng (luôn là một chữ số)
- 3 : Tổng số lượng dòng (giá trị tiền tệ)
Vui lòng tham khảo ảnh chụp màn hình bên dưới, nơi tôi đã đánh dấu các trường này trên hóa đơn mẫu.
Tôi bắt đầu dự án này với một cách tiếp cận mẫu, dựa trên các biểu thức thông thường . Điều này, tuy nhiên, không thể mở rộng được và tôi đã kết thúc với vô số quy tắc khác nhau.
Tôi hy vọng rằng máy học có thể giúp tôi ở đây - hoặc có thể là một giải pháp lai?
Mẫu số chung
Trong tất cả các hóa đơn của tôi, mặc dù có bố cục khác nhau, mỗi mục hàng sẽ luôn bao gồm một số thuế . Số thuế quan này luôn có 8 chữ số và luôn được định dạng theo một cách như dưới đây:
- xxxxxxxx
- xxxx.xxxx
- xx.xx.xx.xx
(Trong đó "x" là một chữ số từ 0 - 9).
Hơn nữa , như bạn có thể thấy trên hóa đơn có cả Đơn giá và Tổng số tiền trên mỗi dòng. Số tiền tôi sẽ luôn luôn là cao nhất cho mỗi dòng.
Đầu ra
Đối với mỗi hóa đơn như trên, tôi cần đầu ra cho mỗi dòng. Điều này có thể là ví dụ như thế này:
{
"line":"0",
"tariff":"85444290",
"quantity":"3",
"amount":"258.93"
},
{
"line":"1",
"tariff":"85444290",
"quantity":"4",
"amount":"548.32"
},
{
"line":"2",
"tariff":"76109090",
"quantity":"5",
"amount":"412.30"
}
Đi đâu từ đây?
Tôi không chắc chắn về những gì tôi đang tìm kiếm rơi vào học máy và nếu vậy, theo thể loại nào. Có phải là tầm nhìn máy tính? NLP? Được công nhận thực thể?
Suy nghĩ ban đầu của tôi là:
- Chuyển đổi hóa đơn thành văn bản. (Các hóa đơn đều ở dạng PDF có thể nhắn tin, vì vậy tôi có thể sử dụng một cái gì đó như
pdftotext
để có được các giá trị văn bản chính xác) - Tạo tùy chỉnh tên các tổ chức cho
quantity
,tariff
vàamount
- Xuất các thực thể tìm thấy.
Tuy nhiên, tôi cảm thấy mình có thể đang thiếu thứ gì đó.
Bất cứ ai có thể giúp tôi đi đúng hướng?
Biên tập:
Vui lòng xem bên dưới để biết thêm một số ví dụ về cách phần bảng hóa đơn có thể trông như sau:
Chỉnh sửa 2:
Vui lòng xem bên dưới để biết ba hình ảnh mẫu, không có viền / hộp giới hạn:
Tariff No.:
hoặc $
) hoặc cột mà nó thuộc về (ở đây nó có thể giúp bạn lưu thông tin không gian của các chữ cái, nếu bất kỳ công cụ OCR nào làm điều đó). Tôi tin rằng bạn không cần phải học máy với vấn đề này (ngoài OCR được tạo sẵn), cũng không phải NLP (đây không phải là ngôn ngữ tự nhiên). Tuy nhiên, không cần xem các công cụ này hoạt động tốt như thế nào với dữ liệu của bạn, chúng tôi chỉ có thể suy đoán bước tiếp theo là gì và điều gì là cần thiết: D