Kiếm tiền
CO.CC:Free Domain
Tìm kiếm
 
 

Display results as :
 


Rechercher Advanced Search

Latest topics
» программы для компьютра
Thu Aug 04, 2011 3:29 pm by Khách viếng thăm

» Is this new to you?
Tue Aug 02, 2011 6:49 pm by Khách viếng thăm

» x-Hack hack you
Fri Jul 29, 2011 12:54 pm by Khách viếng thăm

» Microsoft SQL Server 2005
Wed Sep 01, 2010 7:41 pm by Big Sky

» Kho phim HD Full 1080p/HD Phần 2
Tue Aug 24, 2010 2:28 pm by quanho.

» Diễn đàn sinh viên khoa CNTT - Đại học Thái Nguyên
Sun Aug 22, 2010 4:02 pm by svictu.com

» THÔNG BAO MỚI........
Sat Aug 21, 2010 5:44 pm by xuantocdo

» mọi người cùng chơi zing farm nào !!!
Sun Aug 15, 2010 3:15 pm by thanhskit

» Lịch thi lại học kỳ III
Tue Aug 10, 2010 12:34 pm by ☺♥peakunict♥☺

TRỢ GIÚP ONLINE
Anh Hoàng

Anh Hùng


VietOCR 1.5: Nhận dạng ký tự tiếng Việt "chuẩn không cần chỉnh"

Go down

VietOCR 1.5: Nhận dạng ký tự tiếng Việt "chuẩn không cần chỉnh"

Bài gửi by ☺♥peakunict♥☺ on Thu Dec 31, 2009 4:15 am

Sau
nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng
đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt
trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều
trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa,
chính tả sau khi xử lý.
Đặc biệt chương trình hoàn toàn miễn
phí. Dung lượng: 4,2MB. Tải tại
đây.
So với một số phần mềm nhận dạng văn bản
tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí.
Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức
độ chính xác có thể đạt hơn 80%.VietOCR bao gồm hai phiên bản:
phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản
Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác
nhau như: Windows, Linux,…VietOCR có thể sử dụng như một trình
nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có)
hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên
confusedài. Thao tác xử lý văn bản được chia thành các loại:1.
Nhận dạng tài liệu ảnh:


Thông thường khi quét xong một tài liệu
văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không
thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu.
VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn
có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg,
bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.Để sử dụng
chương trình, bạn cần cài đặt thêm gói Visual
C++ 2008 SP1 (nếu chưa cài đặt vào hệ thống), sau đó truy cập menu
File > Open, trong phần File of types bạn chọn là All Image Files và
nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.Tiếp đến,
trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái
chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là
tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp
xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn
Vietnamese. Sau đó, nhấn nút OCR để bắt đầu quá trình biên dịch nội
dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản
và tốc độ xử lý của máy tính.Sau khi biên dịch xong, bạn sẽ có
ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng.
Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt
động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn
bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để
định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input
Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định
là Unicode được tích hợp sẵn. Trường hợp chỉ muốn nhận dạng riêng một
khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn
trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung
phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập
menu Command > OCR All Pages.Để “thử” kiểm tra khả năng nhận
diện văn bản của chương trình trên các định dạng khác nhau, người viết
đã sử dụng thư viện mẫu văn bản có sẵn (C:\Program
Files\VietUnicode\VietOCR.NET\samples) và dùng chương trình MS Paint của
Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP
(256 bit) từ file gốc có định dạng .TIFFKết quả, cả ba trường hợp
đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa
đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ
biên dịch so với bản gốc là khá chuẩn.2. Cài đặt máy quét:

Nếu
nhu cầu của bạn là xử lý các tài liệu bên confusedài thông qua hệ thống quét
của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm
việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép
file WIAAut.dll (C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục
C:\Windows\System32.Sau đó, bạn vào Start > Run, gõ lệnh regsvr32
C:\Windows\System32\WIAAut.dll
để đăng ký thư viện này
với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu
tiến trình xử lý văn bản như trên.Lưu ý:

- Trong quá
trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or
write protected memory, một trong những nguyên nhân gây ra lỗi này là
do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản
đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho
đúng hướng là xong.- Nếu không có máy quét và bạn vẫn muốn “trải
nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter,
giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn
của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao
diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User
Interface Language, chọn Vietnamese.Cũng tương tự quá trình nhận
dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được
chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản
kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1.
Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải
tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực
hiện này cũng xảy ra với các định dạng khác.Một điều lưu ý với
các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản
quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.3.
Xử lý tài liệu PDF:


Ngoài khả năng nhận dạng các tài liệu ảnh,
VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được
tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript
8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên
(với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường
hợp hai).Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt
tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác
nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể
dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn
thời gian chỉnh sửa nhiều.Theo ECHIP
avatar
☺♥peakunict♥☺
nhị ca
nhị ca

Tổng số bài gửi : 401
Join date : 23/12/2009
Age : 28
Đến từ : phi đội gà con

Xem lý lịch thành viên http://cdcnttk7b.forum-viet.com/

Về Đầu Trang Go down

Về Đầu Trang

- Similar topics

 
Permissions in this forum:
Bạn không có quyền trả lời bài viết