Spaces:

jacobmp
/

multi-line-OCR-handwritten

Running

App Files Files Community

jacobmp commited on 25 days ago

Commit

81788df

verified ·

1 Parent(s): e76d06f

core code added

Browse files

Files changed (1) hide show

app.py +49 -2

app.py CHANGED Viewed

@@ -1,7 +1,54 @@
 import gradio as gr
 def greet(name):
-    return "Hello " + name + "!!"
-demo = gr.Interface(fn=greet, inputs="text", outputs="text")
 demo.launch()

 import gradio as gr
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel
+from huggingface_hub import hf_hub_download
+from transformers import AutoModel
+from ultralytics import YOLO
+from PIL import Image
+import torch
 def greet(name):
+    LINE_MODEL_PATH = "Kansallisarkisto/multicentury-textline-detection"
+    #OCR_MODEL_PATH = "Kansallisarkisto/multicentury-htr-model"
+    OCR_MODEL_PATH = "microsoft/trocr-large-handwritten"
+    # Load the model and processor
+    processor = TrOCRProcessor.from_pretrained(OCR_MODEL_PATH)
+    model = VisionEncoderDecoderModel.from_pretrained(OCR_MODEL_PATH)
+    # Open an image of handwritten text
+    image = Image.open("/content/drive/My Dive/ocr/img/hhhhhh-x595.jpeg").convert("RGB")
+    try:
+        # Load the trained line detection model
+        cached_model_path = hf_hub_download(repo_id = LINE_MODEL_PATH, filename="lines_20240827.pt")
+        line_model = YOLO(cached_model_path)
+    except Exception as e:
+        print('Failed to load the line detection model: %s' % e)
+    results = line_model.predict(source = image)[0]
+    full_text = ""
+    boxes = results.boxes.xyxy
+    indices = boxes[:,1].sort().indices
+    boxes = boxes[indices]
+    for box in boxes:
+        #box = box + torch.tensor([-10,0, 10, 0])
+        box = [tensor.item() for tensor in box]
+        #print(box)
+        lineImg = image.crop(tuple(list(box)))
+        #plt.imshow(lineImg)
+        #plt.show()
+        # Preprocess and predict
+        pixel_values = processor(lineImg, return_tensors="pt").pixel_values
+        generated_ids = model.generate(pixel_values)
+        generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        #print(generated_text)
+        full_text += generated_text
+        #print("--------------------------------------------")
+    return full_text
+    #print("--------------------------------------------")
+demo = gr.Interface(fn=greet, inputs="image", outputs="text")
 demo.launch()