|
OCR’ı en iyi şekilde kullanabilmeniz için aşağıda belirtilen uyarıları göz önüne almanız gerekmektedir.
OCR indeksleme, yalnızca indeks bilgileri her bir dokümanda aynı yerde bulunabiliyorsa çalışır. Bunun için en ideali form içerisinde kutucuğun içine yazılmış olan alan bilgisidir. Formunuz bölgelere ayrıldıktan sonra OCR yazılımı uygun bölgelere bakarak indeks bilgisini bulur.
İmajın temiz olduğundan emin olmalısınız. Fakslar ve üzerinde leke bulunan imajlar OCR için kötü sonuçlar verebilirler.
İmaj, kayıtlı ve düzeltme yapılmış olmalıdır. Tarama yazılımı, OCR bölgelerini bularak sayfayı kayıt etmelidir ve imaj üzerinde düzeltme işlemi yapmalıdır. Bu adımlara ihtiyaç vardır. Çünkü tarayıcının besleme ünitesi tarama sırasında sayfası çok az oranda kaydırır ve ufak miktarda eğriliğe neden olur. Bu da OCR işleminin verimli kullanılmasını engeller.
Doküman üzerinde bazı testler yapılarak, OCR’ın nasıl doğru çalıştırıldığı görülebilir. Ana kural, eğer %95’den daha az doğruluk var ise el ile yapılan indekslemeden çok daha iyidir. (OCR kalitesinin ölçülmesi her bir karakterin temel alınması ile olur. Örneğin; indeks alanınız 10 karakterden oluşuyor. Karakterler ise %95’i doğruluk oranında okunuyor. Bunu kelime haline getirirseniz doğruluk oranı % 60 oluyor. Böylece % 40 oranında kelimelerin düzeltilmesi gerekiyor. Bu durumda OCR’layarak indeksleme başarısız ve gereksiz bir harcamaya neden olur.)
OCR sonuçlarının kalitesi, özellikleri tarafınızdan belirlenmiş geçerli kurallara göre garanti edilmelidir. Örneğin; tarayıcı yazılımınız sosyal güvenlik alanında bulunan tüm karakterlerdeki numaraları kontrol edebilmek için script yazmanıza izin verebilir. Böylece numara “0”ın karakter “O” olarak okunduğunu yakalayıp; düzelterek OCR sırasındaki hatayı en aza indirebilirsiniz.
|