Spaces:

EgoHackZero
/

midas-depth-estimation

Running

App Files Files Community

EgoHackZero commited on May 8

Commit

afae8e5

1 Parent(s): f71d4bc

solve problem with input third try

Browse files

Files changed (2) hide show

app.py +26 -24
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,48 +1,50 @@
 import torch
 import gradio as gr
 import numpy as np
-from PIL import Image
 import cv2
 # Загрузка модели
 midas = torch.hub.load("intel-isl/MiDaS", "MiDaS_small")
 midas.eval()
 midas_transforms = torch.hub.load("intel-isl/MiDaS", "transforms")
 transform = midas_transforms.small_transform
 def predict_depth(image):
-    # ======= 1. Проверка типа входных данных =======
-    if isinstance(image, torch.Tensor):
-        print(f"Пришёл Tensor с формой: {image.shape}")
-        if len(image.shape) == 4:
-            input_tensor = image  # уже батч [1, 3, H, W]
-        elif len(image.shape) == 3:
-            input_tensor = image.unsqueeze(0)  # сделаем батч
-        else:
-            raise ValueError(f"Неожиданный размер Tensor: {image.shape}")
     else:
-        print("Пришёл PIL Image или numpy array")
-        # Если пришло обычное изображение (PIL или numpy)
-        if not isinstance(image, Image.Image):
-            image = Image.fromarray(image)
-        img = np.array(image)
-        img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
-        input_tensor = transform(img_rgb).unsqueeze(0)
-    # ======= 2. Предсказание =======
     with torch.no_grad():
-        prediction = midas(input_tensor)
         prediction = torch.nn.functional.interpolate(
             prediction.unsqueeze(1),
-            size=(input_tensor.shape[2], input_tensor.shape[3]),
             mode="bicubic",
             align_corners=False,
         ).squeeze()
-    # ======= 3. Нормализация карты глубины =======
     depth_map = prediction.cpu().numpy()
     depth_map = (depth_map - depth_map.min()) / (depth_map.max() - depth_map.min())
     depth_map = (depth_map * 255).astype(np.uint8)
@@ -55,8 +57,8 @@ iface = gr.Interface(
     fn=predict_depth,
     inputs=gr.Image(type="pil"),
     outputs=gr.Image(type="pil"),
-    title="MiDaS Depth Estimation",
-    description="Загрузите изображение или отправьте через API. Получите карту глубины."
 )
 if __name__ == "__main__":

 import torch
 import gradio as gr
 import numpy as np
 import cv2
+from PIL import Image
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # Загрузка модели
 midas = torch.hub.load("intel-isl/MiDaS", "MiDaS_small")
+midas.to(device)
 midas.eval()
+# Загрузка трансформаций
 midas_transforms = torch.hub.load("intel-isl/MiDaS", "transforms")
 transform = midas_transforms.small_transform
 def predict_depth(image):
+    # ======= 1. Преобразование в OpenCV формат =======
+    if not isinstance(image, Image.Image):
+        image = Image.fromarray(image)
+    image_np = np.array(image)
+    # OpenCV читает в BGR, но image_np скорее всего уже в RGB
+    img_rgb = cv2.cvtColor(image_np, cv2.COLOR_RGB2BGR)
+    img_rgb = cv2.cvtColor(img_rgb, cv2.COLOR_BGR2RGB)  # На всякий случай двойная проверка
+    # ======= 2. Преобразование как в официальном туториале =======
+    input_tensor = transform(img_rgb).to(device)  # shape: [3, H, W]
+    # ======= 3. Добавление batch размерности =======
+    if len(input_tensor.shape) == 3:
+        input_batch = input_tensor.unsqueeze(0)  # shape: [1, 3, H, W]
     else:
+        input_batch = input_tensor  # Уже batch
+    # ======= 4. Предсказание =======
     with torch.no_grad():
+        prediction = midas(input_batch)
         prediction = torch.nn.functional.interpolate(
             prediction.unsqueeze(1),
+            size=(img_rgb.shape[0], img_rgb.shape[1]),  # (H, W)
             mode="bicubic",
             align_corners=False,
         ).squeeze()
+    # ======= 5. Нормализация и преобразование в изображение =======
     depth_map = prediction.cpu().numpy()
     depth_map = (depth_map - depth_map.min()) / (depth_map.max() - depth_map.min())
     depth_map = (depth_map * 255).astype(np.uint8)
     fn=predict_depth,
     inputs=gr.Image(type="pil"),
     outputs=gr.Image(type="pil"),
+    title="MiDaS Depth Estimation (Official Tutorial Style)",
+    description="Загрузите изображение. Возвращается карта глубины."
 )
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -2,4 +2,5 @@ torch
 torchvision
 timm
 opencv-python
 gradio

 torchvision
 timm
 opencv-python
+pillow
 gradio