วิธีใช้ Tesseract OCR ใน Java

ผู้เขียน: Eugene Taylor
วันที่สร้าง: 8 สิงหาคม 2021
วันที่อัปเดต: 11 พฤษภาคม 2024
Anonim
How to use Tesseract OCR with Java? | Extract text from image
วิดีโอ: How to use Tesseract OCR with Java? | Extract text from image

เนื้อหา

ไลบรารีการรู้จำอักขระด้วยแสงแบบ Tesseract เสนอวิธีให้นักพัฒนาในการสแกนเอกสารและข้อความลงในภาพ พวกเขาจะใช้ในการเก็บภาพของเอกสารที่คุณไม่ต้องการบนกระดาษอีกต่อไป คุณสามารถใช้พวกมันใน Java โดยสร้างลูปควบคุมสำหรับแต่ละอักขระและเขียนแต่ละไฟล์ ในการใช้ไลบรารี Tesseract คุณต้องรวม Java "namespace" สำหรับฟังก์ชั่น OCR


คำสั่ง

ห้องสมุด Tesseract อนุญาตให้ผู้ใช้สแกนเอกสารของตน (รูปภาพ John Foxx / Stockbyte / Getty)
  1. คลิกขวาที่ไฟล์ Java ที่คุณต้องการใช้เพื่อสร้างเอกสาร OCR คลิก "เปิดด้วย" และเลือกตัวแก้ไข Java ที่คุณต้องการ

  2. เพิ่มเนมสเปซไลบรารี OCR ที่ด้านบนของไฟล์ คัดลอกและวางรหัสต่อไปนี้ไปยังไฟล์ต้นฉบับของคุณ:

    com.tplan.robot.imagecomparison.tesseractocr

  3. สร้างรหัสที่รับผิดชอบในการสแกนอักขระสำหรับไฟล์ ตัวอย่างเช่นรหัสต่อไปนี้สร้างการวนซ้ำผ่านอักขระแต่ละตัวในไฟล์และเขียนไปยังไฟล์รูปภาพ:

    (I = 1; {i} <{lines} +1; i = {i}) คือชุดของค่าที่กำหนดเป็น: +1) {Typeline "{_TOCR_LINE {i}}"}

  4. คลิกปุ่ม "บันทึก" ของเครื่องมือแก้ไขและคลิก "เรียกใช้" เพื่อเรียกใช้รหัสในคอมไพเลอร์ Java