Cắt lát và công nhận tên sách và tác giả từ hình ảnh kệ sách


12

Tôi đang cố gắng, vì mục đích học tập của riêng tôi, để phát triển việc thực hiện một thuật toán liệt kê các cuốn sách, đưa ra một hình ảnh của giá sách như sau:

nhập mô tả hình ảnh ở đây

Bước đầu tiên là cắt hình ảnh thành từng cuốn sách.

Thuật toán của tôi, trong Mathicala , là:

    img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]
  • làm một phát hiện cạnh cơ bản &
  • xóa văn bản và cố gắng giữ các dòng dài

    edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
    
  • sau đó loại bỏ các đường ngang không mong muốn

    lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]]
    Show[img, Graphics[{Thick, Orange, Line /@ lines}]]
    

Kết quả, mặc dù, là ít hơn tuyệt vời:

nhập mô tả hình ảnh ở đây

Câu hỏi của tôi là:

  1. Làm thế nào tôi có thể cải thiện điều này để mang lại kết quả tốt hơn?
  2. Có cách nào thông minh hơn để làm điều này?
  3. Tôi nên xử lý hình ảnh như thế nào để tăng độ chính xác ở giai đoạn OCR (sau)?
  4. Làm thế nào để sử dụng thông tin màu sắc để cải thiện phân khúc?

1
@OrenPinsky Tôi không thấy vấn đề với phân đoạn: số lượng "khu vực sách giả" không nhiều (tôi chỉ có thể thấy một trong mẫu bạn cung cấp) và nếu bạn dự định thực hiện một số loại nhận dạng văn bản như Bước tiếp theo, điều đó đủ để phân biệt giữa sách (khu vực có văn bản) và không phải sách (không có văn bản)
Penelope

3
@OrenPinsky, tôi muốn nói rằng kết quả của bạn khá tuyệt vời. :)
Dima

Câu trả lời:



4

Phương pháp nào bạn đang sử dụng để phát hiện các dòng? Bạn đã thử trải nghiệm với LSD chưa?

Đây là kết quả của một bài kiểm tra nhanh mà tôi đã sử dụng LSD:

0,1*heTôightpic1

Hình ảnh thứ hai là các kết quả có cùng hạn chế góc nhưng không quan tâm đến độ dài của các phân đoạn: pic2

Bạn có thể thử chơi với điều này một chút, tìm ra cách chọn các phân đoạn dòng tốt nhất, mở rộng chúng thành các dòng và có thể nhận được kết quả tốt hơn một chút so với các phân đoạn bạn đã đăng.


6
"Bạn đã thử trải nghiệm với LSD chưa?" Cố gắng nhé, FBI;)
Lorem Ipsum

ImageLine của Mathematica dựa trên biến đổi Hough và bây giờ tôi tin chắc (từ phản hồi ở đây, chủ yếu) rằng nó hoạt động khá tốt. Tuy nhiên, điều đó làm phiền tôi rằng tôi đang mất dữ liệu liên quan khi tôi chuyển sang thang độ xám và trong ứng dụng này, dữ liệu màu có thể giúp (một cách trực giác) giúp máy dò cạnh mạnh mẽ. Bạn sẽ thử LSD và xem nó hoạt động như thế nào! (nó hoạt động rất tốt cho Steve Jobs! ;-)
Oren Pinsky

Tôi đã thấy một người bạn sử dụng LSD để phát hiện cửa, tôi nghĩ rằng anh ta hài lòng với kết quả cuối cùng. Tôi muốn nói rằng nó đáng để thử: D
penelope

1

Bạn có thể thử thực hiện phát hiện cạnh trên các miền màu riêng lẻ và sau đó hợp nhất chúng, sử dụng phương pháp bạn chọn để phát hiện cạnh.

So với phát hiện cạnh trực tiếp trên hình ảnh màu, nó có thể tạo ra kết quả tốt hơn.


0

Có thể tìm thấy bài báo từ liên kết bị hỏng do isrish cung cấp Kết hợp các tính năng hình ảnh và văn bản: một cách tiếp cận lai để nhận dạng cột sống sách di động , Proc. Hội nghị quốc tế ACM lần thứ 19 về Đa phương tiện, 2011. Người ta cũng có thể kiểm tra các bài báo khác từ David Chen et al. , ví dụ: Theo dõi tài sản chi phí thấp bằng cách sử dụng điện thoại camera Aware Aware , Proc. SPIE 2010.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.