OpenGVLab
/

InternVL3-9B

@@ -5,13 +5,15 @@
 # --------------------------------------------------------
 import warnings
 from typing import Any, List, Optional, Tuple, Union
 import torch.utils.checkpoint
 import transformers
 from torch import nn
 from torch.nn import CrossEntropyLoss
 from transformers import (AutoModel, GenerationConfig, LlamaForCausalLM,
                           LlamaTokenizer, Qwen2ForCausalLM)
 from transformers.modeling_outputs import CausalLMOutputWithPast
 from transformers.modeling_utils import PreTrainedModel
 from transformers.utils import ModelOutput, logging
@@ -22,7 +24,8 @@ from .modeling_intern_vit import InternVisionModel, has_flash_attn
 from .modeling_internlm2 import InternLM2ForCausalLM
 logger = logging.get_logger(__name__)
 def version_cmp(v1, v2, op='eq'):
     import operator
@@ -31,6 +34,76 @@ def version_cmp(v1, v2, op='eq'):
     op_func = getattr(operator, op)
     return op_func(version.parse(v1), version.parse(v2))
 class InternVLChatModel(PreTrainedModel):
     config_class = InternVLChatConfig
@@ -252,10 +325,25 @@ class InternVLChatModel(PreTrainedModel):
         responses = [response.split(template.sep)[0].strip() for response in responses]
         return responses
-    def chat(self, tokenizer, pixel_values, question, generation_config, history=None, return_history=False,
              num_patches_list=None, IMG_START_TOKEN='<img>', IMG_END_TOKEN='</img>', IMG_CONTEXT_TOKEN='<IMG_CONTEXT>',
              verbose=False):
         if history is None and pixel_values is not None and '<image>' not in question:
             question = '<image>\n' + question
@@ -360,4 +448,4 @@ class InternVLChatModel(PreTrainedModel):
         return self.language_model.get_input_embeddings()
     def get_output_embeddings(self):
-        return self.language_model.get_output_embeddings()

 # --------------------------------------------------------
 import warnings
 from typing import Any, List, Optional, Tuple, Union
+from PIL import Image
 import torch.utils.checkpoint
 import transformers
 from torch import nn
 from torch.nn import CrossEntropyLoss
 from transformers import (AutoModel, GenerationConfig, LlamaForCausalLM,
                           LlamaTokenizer, Qwen2ForCausalLM)
+import torchvision.transforms as T
+from torchvision.transforms.functional import InterpolationMode
 from transformers.modeling_outputs import CausalLMOutputWithPast
 from transformers.modeling_utils import PreTrainedModel
 from transformers.utils import ModelOutput, logging
 from .modeling_internlm2 import InternLM2ForCausalLM
 logger = logging.get_logger(__name__)
+IMAGENET_MEAN = (0.485, 0.456, 0.406)
+IMAGENET_STD = (0.229, 0.224, 0.225)
 def version_cmp(v1, v2, op='eq'):
     import operator
     op_func = getattr(operator, op)
     return op_func(version.parse(v1), version.parse(v2))
+def build_transform(input_size):
+    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
+    transform = T.Compose([
+        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),
+        T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),
+        T.ToTensor(),
+        T.Normalize(mean=MEAN, std=STD)
+    ])
+    return transform
+def find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):
+    best_ratio_diff = float('inf')
+    best_ratio = (1, 1)
+    area = width * height
+    for ratio in target_ratios:
+        target_aspect_ratio = ratio[0] / ratio[1]
+        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
+        if ratio_diff < best_ratio_diff:
+            best_ratio_diff = ratio_diff
+            best_ratio = ratio
+        elif ratio_diff == best_ratio_diff:
+            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
+                best_ratio = ratio
+    return best_ratio
+def dynamic_preprocess(image, min_num=1, max_num=12, image_size=448, use_thumbnail=False):
+    orig_width, orig_height = image.size
+    aspect_ratio = orig_width / orig_height
+    # calculate the existing image aspect ratio
+    target_ratios = set(
+        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if
+        i * j <= max_num and i * j >= min_num)
+    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])
+    # find the closest aspect ratio to the target
+    target_aspect_ratio = find_closest_aspect_ratio(
+        aspect_ratio, target_ratios, orig_width, orig_height, image_size)
+    # calculate the target width and height
+    target_width = image_size * target_aspect_ratio[0]
+    target_height = image_size * target_aspect_ratio[1]
+    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]
+    # resize the image
+    resized_img = image.resize((target_width, target_height))
+    processed_images = []
+    for i in range(blocks):
+        box = (
+            (i % (target_width // image_size)) * image_size,
+            (i // (target_width // image_size)) * image_size,
+            ((i % (target_width // image_size)) + 1) * image_size,
+            ((i // (target_width // image_size)) + 1) * image_size
+        )
+        # split the image
+        split_img = resized_img.crop(box)
+        processed_images.append(split_img)
+    assert len(processed_images) == blocks
+    if use_thumbnail and len(processed_images) != 1:
+        thumbnail_img = image.resize((image_size, image_size))
+        processed_images.append(thumbnail_img)
+    return processed_images
+def load_image(image_file, input_size=448, max_num=12):
+    image = Image.open(image_file).convert('RGB')
+    transform = build_transform(input_size=input_size)
+    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)
+    pixel_values = [transform(image) for image in images]
+    pixel_values = torch.stack(pixel_values)
+    return pixel_values
 class InternVLChatModel(PreTrainedModel):
     config_class = InternVLChatConfig
         responses = [response.split(template.sep)[0].strip() for response in responses]
         return responses
+    def chat(self, tokenizer, pixel_values, question, generation_config, history=None, return_history=False, image_dirs=None,
              num_patches_list=None, IMG_START_TOKEN='<img>', IMG_END_TOKEN='</img>', IMG_CONTEXT_TOKEN='<IMG_CONTEXT>',
              verbose=False):
+        if image_dirs is not None:
+            print("----------------------------------")
+            print("Using image_dirs to load images. 'pixel_values' and 'num_patches_list' will be ignored.")
+            print("You should provide all the previous image files and the current image file in the 'image_dirs' argument.")
+            print("----------------------------------")
+            if isinstance(image_dirs, str):
+                image_dirs = [image_dirs]
+            elif isinstance(image_dirs, list):
+                pass
+            else:
+                raise ValueError(f'Invalid image_dirs: {image_dirs}. It should be a string or a list of strings.')
+            image_values = [load_image(image_file, max_num=12).to(torch.float16).cuda() for image_file in image_dirs]
+            pixel_values = torch.cat(image_values, dim=0)
+            num_patches_list = [image_values[i].shape[0] for i in range(len(image_values))]
         if history is None and pixel_values is not None and '<image>' not in question:
             question = '<image>\n' + question
         return self.language_model.get_input_embeddings()
     def get_output_embeddings(self):
+        return self.language_model.get_output_embeddings()