Hướng dẫn cách lấy nội dung văn bản text/ chữ từ file hình ảnh hoặc pdf

 

Có nhiều tài liệu cần thiết nhưng được lưu trữ dưới dạng hình ảnh như các file jpg, gif hay thậm chí pdf mà nội dung gốc là hình ảnh trước khi được convert sang pdf

khiến bạn không thể lấy được nội dung chữ (text) ra để phục vụ cho mục đích riêng. Việc đánh lại các trang văn bản tốn rất nhiều công sức. Trong bài này, tôi sẽ hướng dẫn cách lấy nội dung văn bản text/ chữ từ file hình ảnh hoặc pdf một cách dễ dàng bằng công cụ JOCR.

- JOCR là công cụ hữu ích để phục hồi các tập tin văn bản được bảo vệ không cho
sao chép nội dụng.
- JOCR cho phép bạn chép văn bản từ tập tin và file hình ảnh bất kỳ nào trên máy
tính như nội dung các trang Web được bảo vệ không cho copy, tập tin PDF, các
thông báo lỗi của Windows.
- Để sử dụng, bạn chỉ cần kích hoạt tập tin JOCR.exe
- Sau đó mở tập tin ảnh, PDF hay truy cập trang Web cần sao chép nội dung văn bản lên, rồi trở về giao diện làm việc của JOCR, và bấm nút Capture Region rồi dùng chuột rê chọn vùng cửa sổ chứa văn bản cần trích xuất. Ngay lập tức nội dung văn bản vừa chụp sẽ hiển thị trong cửa sổ làm việc của chương trình.
- Sau đó bạn bấm nút Recognize để bắt đầu quá trình trích xuất và nhận kết quả.

Sử dụng JOCR yêu cầu hệ thống của bạn cài đặt Microsoft Office 2003 hoặc 2007 (với 2010 thì cài thêm Microsoft Office Document Imaging của 2007.)

Nếu JCOR không làm việc, thì bạn phải cài đặt “Microsoft Office Document Imaging” (MODI) đã được cung cấp sẵn trong tập tin cài đặt của Microsoft Office. Và bạn có thể tìm Modi trong menu “Office Tools” của tập tin cài đặt.

Bài liên quan:

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>