SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'đồ decor ngoài trời',
    '<p><strong>🔸Công ty Kim Vinh</strong> chuyên cung cấp các sản phẩm trang trí nội, ngoại thất chất lượng cao cho mọi không gian sống. Với đa dạng mẫu mã, từ đồ trang trí phòng khách, phòng ngủ, đến các vật dụng ngoài trời như sân vườn, ban công, <strong>Kim Vinh</strong> cam kết mang đến những sản phẩm không chỉ đẹp mắt mà còn bền vững theo thời gian.</p><p>🔸Tất cả các mặt hàng tại công ty đều có sẵn, giúp khách hàng dễ dàng lựa chọn và mua sắm nhanh chóng. Đặc biệt, <strong>Kim Vinh</strong> luôn chú trọng đến dịch vụ giao hàng nhanh chóng, đảm bảo sự hài lòng tuyệt đối cho mọi khách hàng. Chúng tôi tự hào là đối tác tin cậy của nhiều gia đình, doanh nghiệp trong việc làm đẹp không gian sống và làm việc.</p>',
    '<p>🔸<strong>Orchard Home Forest</strong> là một khu nghỉ dưỡng sinh thái tọa lạc tại vùng ngoại ô, nơi hòa quyện giữa vẻ đẹp tự nhiên và không gian yên bình, lý tưởng cho những ai tìm kiếm sự thư giãn và tái tạo năng lượng. Với diện tích rộng lớn bao phủ bởi rừng cây xanh mát và những khu vườn trái cây trĩu quả, nơi đây mang đến cho du khách một trải nghiệm gần gũi với thiên nhiên.</p><p>🔸<strong>Orchard Home Forest</strong> không chỉ nổi bật với cảnh quan tươi đẹp, mà còn cung cấp các dịch vụ nghỉ dưỡng cao cấp, như biệt thự nghỉ dưỡng, nhà gỗ tiện nghi, các hoạt động ngoài trời như đi bộ, đạp xe và tham gia vào các chương trình chăm sóc sức khỏe, yoga. Đặc biệt, khu nghỉ dưỡng này chú trọng phát triển bền vững và bảo vệ môi trường, với các biện pháp giảm thiểu tác động đến hệ sinh thái địa phương.</p><p>🔸Những ai ghé thăm <strong>Orchard Home Forest </strong>sẽ cảm nhận được sự thư thái, tĩnh lặng, và làn gió mới cho tâm hồn, giúp tái tạo năng lượng sau những ngày làm việc căng thẳng. Đây là điểm đến lý tưởng cho những ai yêu thích sự kết hợp giữa nghỉ dưỡng và khám phá thiên nhiên.</p>',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,964 training samples
  • Columns: query, description, and negative
  • Approximate statistics based on the first 1000 samples:
    query description negative
    type string string string
    details
    • min: 4 tokens
    • mean: 7.01 tokens
    • max: 13 tokens
    • min: 14 tokens
    • mean: 254.77 tokens
    • max: 512 tokens
    • min: 15 tokens
    • mean: 289.38 tokens
    • max: 512 tokens
  • Samples:
    query description negative
    mật ong probiotics

    🔸Sinh Kế Việt – VIJC tự hào là đơn vị cung cấp các giải pháp hỗ trợ sức khoẻ cộng đồng từ mật ong Probiotics tự nhiên kết hợp công nghệ hiện đại.

    🔸Thông qua đó chúng tôi hỗ trợ phát triển sinh kế, khởi nghiệp bền vững cho bà con nông dân từ tài nguyên bản địa.

    🔸Công ty CP Công Nghệ Sinh Học Dương Gia K&T là đơn vị chuyên sản xuất và cung cấp mật ong lượng tử.

    🔸Sản phẩm Mật Ong Lượng tử – EZ là sản phẩm hữu cơ, nguồn nguyên liệu sản xuất được tuyển chọn từ nhà nuôi phù hợp tiêu chuẩn, quy trình thiết kế chuyên biệt và được lấy hoàn toàn 100% là mật ong nuôi tại tỉnh Đắk Lắk, với giống ong Ý có tên khoa học là Apis Mellifera Ligustica. Sau đó được kích hoạt lượng tử giúp cho mật ong sạch và hấp thụ thêm năng lượng. Không bổ sung bất cứ thành phần hoạt chất nào và hoàn toàn không sử dụng chất bảo quản.

    🔸Quy trình xử lý mật ong bằng phương pháp kích hoạt lượng tử là quy trình duy nhất tại Việt Nam được nghiên cứu và thực hiện bởi tác giả Dương Minh Tâm – Tài năng Khoa học và Công nghệ Việt Nam.

    mật ong probiotics

    🔸Sinh Kế Việt – VIJC tự hào là đơn vị cung cấp các giải pháp hỗ trợ sức khoẻ cộng đồng từ mật ong Probiotics tự nhiên kết hợp công nghệ hiện đại.

    🔸Thông qua đó chúng tôi hỗ trợ phát triển sinh kế, khởi nghiệp bền vững cho bà con nông dân từ tài nguyên bản địa.

    🔸Công ty TNHH TV-TM-DV GĐT, với trụ sở tại Đồng Tháp, là đơn vị tiên phong trong lĩnh vực thương mại các sản phẩm bổ sung và chăm sóc sức khỏe dành cho mẹ và bé. Với sứ mệnh mang đến những sản phẩm an toàn, chất lượng cao, GĐT cam kết cung cấp giải pháp tối ưu nhằm nâng cao sức khỏe cộng đồng, đặc biệt là cho các gia đình Việt.

    🔸Sản phẩm nổi bật của chúng tôi – sirô bổ sung chất xơ Bukhoe – đã chiếm được lòng tin của hàng ngàn bà mẹ nhờ hiệu quả trong việc hỗ trợ giảm táo bón và tăng cường hệ vi khuẩn có lợi cho đường ruột. Bukhoe được làm từ chất xơ nhập khẩu từ Mỹ, sản xuất trong nhà máy đạt tiêu chuẩn GMP, đảm bảo chất lượng và an toàn tuyệt đối. Sản phẩm có hương vị thơm ngon, dễ uống và tiện lợi cho cả gia đình sử dụng hàng ngày.

    🔸Điểm đặc biệt của Bukhoe là thành phần sirô chiết xuất từ đường bắp, an toàn cho người tiểu đường và trẻ em có ...

    mật ong probiotics

    🔸Sinh Kế Việt – VIJC tự hào là đơn vị cung cấp các giải pháp hỗ trợ sức khoẻ cộng đồng từ mật ong Probiotics tự nhiên kết hợp công nghệ hiện đại.

    🔸Thông qua đó chúng tôi hỗ trợ phát triển sinh kế, khởi nghiệp bền vững cho bà con nông dân từ tài nguyên bản địa.

    🔸BIO-HOPE là thương hiệu hàng đầu về sản xuất đông trùng hạ thảo tại Việt Nam. Sở Hữu nhà máy hiện đại được chuyển giao công nghệ sản xuất từ Nhật Bản, BIO-HOPE tự hào có hơn 10 năm kinh nghiệm phát triển các sản phẩm chăm sóc sức khỏe cao cấp. Các sản phẩm chủ lực bao gồm đông trùng hạ thảo, đông trùng yến, cao đông trùng linh chi, mật ong đông trùng hạ thảo,...

    🔸Sản phẩm của BIO-HOPE không chỉ tăng cường sức đề kháng, giúp ngủ ngon mà còn hỗ trợ phục hồi và duy trì các chức năng quan trọng của cơ thể như gan, thận, phổi và tim mạch. Cam kết của BIO-HOPE là mang đến cho khách hàng các giải pháp sức khỏe vượt trội, đáp ứng nhu cầu chăm sóc toàn diện.

    Giải Thưởng Đạt Được:

    🔸"Top 10 Thương Hiệu Phát Triển Quốc Gia 2022" và "Top 10 Thương Hiệu Vàng, Chất Lượng Quốc Tế 2022" là những danh hiệu danh giá mà BIO-HOPE đã đạt được, khẳng ...

  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • num_train_epochs: 1
  • warmup_steps: 100
  • fp16: True
  • dataloader_num_workers: 4

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 100
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 4
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0268 10 1.9618
0.0536 20 1.8811
0.0804 30 1.8416
0.1072 40 1.7155
0.1340 50 1.5214
0.1609 60 1.6549
0.1877 70 1.5042
0.2145 80 1.3187
0.2413 90 1.3651
0.2681 100 1.1366
0.2949 110 1.2463
0.3217 120 1.1371
0.3485 130 1.1857
0.3753 140 1.1055
0.4021 150 1.1215
0.4290 160 1.206
0.4558 170 1.0617
0.4826 180 1.169
0.5094 190 1.1628
0.5362 200 1.1601
0.5630 210 1.1011
0.5898 220 0.8756
0.6166 230 1.1203
0.6434 240 0.8605
0.6702 250 0.9246
0.6971 260 0.9078
0.7239 270 1.1245
0.7507 280 0.8946
0.7775 290 0.8846
0.8043 300 0.9328
0.8311 310 1.0018
0.8579 320 0.9624
0.8847 330 0.8516
0.9115 340 0.836
0.9383 350 0.7674
0.9651 360 0.937
0.9920 370 0.9097

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.53.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 2.14.4
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
39
Safetensors
Model size
305M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SteveTran/ob_semantic_model

Finetuned
(79)
this model