วิธีใช้ Tesseract OCR ใน Java

ผู้เขียน: Eugene Taylor

วันที่สร้าง: 8 สิงหาคม 2021

วันที่อัปเดต: 12 ธันวาคม 2024

How to use Tesseract OCR with Java? | Extract text from image — วิดีโอ: How to use Tesseract OCR with Java? | Extract text from image

เนื้อหา

คำสั่ง

ไลบรารีการรู้จำอักขระด้วยแสงแบบ Tesseract เสนอวิธีให้นักพัฒนาในการสแกนเอกสารและข้อความลงในภาพ พวกเขาจะใช้ในการเก็บภาพของเอกสารที่คุณไม่ต้องการบนกระดาษอีกต่อไป คุณสามารถใช้พวกมันใน Java โดยสร้างลูปควบคุมสำหรับแต่ละอักขระและเขียนแต่ละไฟล์ ในการใช้ไลบรารี Tesseract คุณต้องรวม Java "namespace" สำหรับฟังก์ชั่น OCR

คำสั่ง

ห้องสมุด Tesseract อนุญาตให้ผู้ใช้สแกนเอกสารของตน (รูปภาพ John Foxx / Stockbyte / Getty)

คลิกขวาที่ไฟล์ Java ที่คุณต้องการใช้เพื่อสร้างเอกสาร OCR คลิก "เปิดด้วย" และเลือกตัวแก้ไข Java ที่คุณต้องการ
เพิ่มเนมสเปซไลบรารี OCR ที่ด้านบนของไฟล์ คัดลอกและวางรหัสต่อไปนี้ไปยังไฟล์ต้นฉบับของคุณ:

com.tplan.robot.imagecomparison.tesseractocr
สร้างรหัสที่รับผิดชอบในการสแกนอักขระสำหรับไฟล์ ตัวอย่างเช่นรหัสต่อไปนี้สร้างการวนซ้ำผ่านอักขระแต่ละตัวในไฟล์และเขียนไปยังไฟล์รูปภาพ:

(I = 1; {i} <{lines} +1; i = {i}) คือชุดของค่าที่กำหนดเป็น: +1) {Typeline "{_TOCR_LINE {i}}"}
คลิกปุ่ม "บันทึก" ของเครื่องมือแก้ไขและคลิก "เรียกใช้" เพื่อเรียกใช้รหัสในคอมไพเลอร์ Java