📋 **İçindekiler** Genel Açıklama • Yetenekler • Hızlı Başlangıç • Örnek Kullanım • Model Detayları • Ekibimiz • Kısıtlamalar • Lisans --- ## 📚 Genel Açıklama **Qwen2.5-VL-7B-Turkish-VLM-Mix-Merged**, Alibaba Cloud’un unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit tabanlı görsel-dil (VLM) modelinin, **Turkish-VLM-Mix Benchmark** alt kümeleri (coco_qa_tr, docci_tr, vs.) üzerinde **LoRA** yöntemiyle Türkçe odaklı olarak ince ayarlanmış ve **4-bit NF4** kuantalama ile tek dosyada çalışacak şekilde birleştirilmiş sürümüdür. Türkçe görsel soru-cevap (VQA), görsel açıklama (captioning) ve temel resim anlama görevlerinde düşük gecikmeli ve düşük bellekli bir çözüm sunar. --- ## ✨ Yetenekler * Türkçe görsel soru-cevap ve görsel açıklama üretimi * Çoklu mod (metin + görsel girdi) destekli chat şablonu * 4-bit NF4 kuantalama sayesinde ≤ 13 GB VRAM’de çalışır * **LoRA merged** → Ek adaptör gerektirmez; tek klasörden yüklenir * İngilizce sorulara sınırlı da olsa yanıt verebilir --- ## 🚀 Hızlı Başlangıç ```python from unsloth import FastVisionModel device = "cuda" # veya "cpu" model, tokenizer = FastVisionModel.from_pretrained( "OrionCAF/qwen2_5_turkish_vlm", load_in_4bit = False, # fp16 yüklüyorsanız False yapın trust_remote_code = True, ) FastVisionModel.for_inference(model) from PIL import Image img = Image.open("örnek.jpg") messages = [{ "role": "user", "content": [ {"type": "text", "text": "Bu fotoğrafta neler görüyorsun?"}, {"type": "image", "image": img}, ], }] chat = tokenizer.apply_chat_template(messages, add_generation_prompt=True) inputs = tokenizer(img, chat, add_special_tokens=False, return_tensors="pt").to(model.device) out = model.generate(**inputs, max_new_tokens=128, temperature=0.8, top_p=0.9) print(tokenizer.decode(out[0], skip_special_tokens=True)) ```` --- ## 🧠 Model Detayları | Özellik | Değer | | ------------------ | ----------------------------------------------------------------------- | | **Temel Model** | unsloth/Qwen2.5-VL-7B-Instruct-bnb-4bit | | **Eğitim Yöntemi** | LoRA (rank = 32) + `merge_and_unload()` | | **Veri Seti** | ucsahin/Turkish-VLM-Mix-Benchmark( özel olarak teşekkür ederim ) (coco\_qa\_tr, docci\_tr, ist\_plq\_tr, …) | | **Maks. Sekans** | 2048 token (metin), 224×224 görsel yaması | | **Dil Desteği** | Türkçe (birincil), İngilizce (ek) | | **Lisans** | Apache-2.0 | --- ## 👥 Ekibimiz ## 👥 Ekibimiz * **Ferhat Kürkçüoğlu** – [LinkedIn](https://www.linkedin.com/in/ferhatkurkcuoglu/) * **Cengizhan Bayram** – [LinkedIn](https://www.linkedin.com/in/cengizhan-bayram-a66009223/) * **Cevdet Ahmet Turan** – [LinkedIn](https://www.linkedin.com/in/cevdet-ahmet-turan/) * **Volkan Altıntaş** – [LinkedIn](https://www.linkedin.com/in/volkanaltintas/) > Ekibe katılmak veya geri bildirim vermek için GitHub issues veya Hugging Face Discussions bölümünü kullanabilirsiniz. --- ## ⚠️ Kısıtlamalar 2. Tıp, hukuk vb. alanlara dair görsellerde doğruluk garanti edilmez. 3. Düşük çözünürlüklü veya çok karmaşık sahnelerde performans düşebilir. 4. 4-bit kuantalama, fp16 modele göre hafif kalite kaybı yaratabilir. --- ## 📄 Lisans Bu model ve ağırlıkları **Apache License 2.0** kapsamındadır. Uygun atıfla ticari ve akademik projelerde serbestçe kullanabilirsiniz. ```