imstevenleo commited on
Commit
ce348e1
·
1 Parent(s): 6b7f850

Updated CarBot with Falcon-Arabic-7B-Instruct and enhanced database

Browse files
Files changed (3) hide show
  1. app.py +14 -13
  2. main.py +440 -33
  3. scraper.py +132 -0
app.py CHANGED
@@ -1,7 +1,7 @@
1
  from fastapi import FastAPI, HTTPException
2
  from pydantic import BaseModel
3
  from typing import Optional
4
- from database import Database # استوردنا الكلاس بدل الدوال
5
  from transformers import pipeline
6
  from cachetools import TTLCache
7
  import logging
@@ -38,10 +38,11 @@ def load_generator():
38
  global generator
39
  if generator is None:
40
  try:
41
- generator = pipeline('text-generation', model='aubmindlab/aragpt2-base', truncation=True, pad_token_id=0, eos_token_id=0, max_length=100, num_return_sequences=1)
42
- logger.info("Successfully loaded AraGPT2 model")
 
43
  except Exception as e:
44
- logger.error(f"Failed to load AraGPT2 model: {str(e)}")
45
  raise
46
  return generator
47
 
@@ -57,7 +58,7 @@ def shutdown_event():
57
  @app.post("/cars/")
58
  async def add_car(car: Car):
59
  try:
60
- car_id = db.create_car(car.model, car.price, car.status, car.description) # استخدمنا db
61
  return {"id": car_id, **car.dict()}
62
  except Exception as e:
63
  logger.error(f"Error creating car: {str(e)}")
@@ -69,7 +70,7 @@ async def list_cars():
69
  cached_result = cache.get("all_cars")
70
  if cached_result:
71
  return cached_result
72
- cars = db.get_all_cars() # استخدمنا db
73
  cache["all_cars"] = cars
74
  return cars
75
  except Exception as e:
@@ -79,7 +80,7 @@ async def list_cars():
79
  @app.get("/cars/{car_id}")
80
  async def get_car(car_id: int):
81
  try:
82
- car = db.get_car_by_id(car_id) # استخدمنا db
83
  if not car:
84
  raise HTTPException(status_code=404, detail="السيارة مو موجودة")
85
  return car
@@ -94,12 +95,12 @@ async def get_car_info(model: str):
94
  available_cars = [car for car in cars if car['model'].lower() == model.lower()]
95
 
96
  if not available_cars:
97
- prompt = f"ما اعرف هذا الموديل '{model}'، اعطيني معلومات عنه بلهجة عراقية طبيعية."
98
  try:
99
  gen = load_generator()
100
- response = gen(prompt, max_length=80, num_return_sequences=1, do_sample=True, temperature=0.7)[0]['generated_text']
101
  response = response.split(".")[0].split("؟")[0].strip() + "."
102
- if len(response) < 20: # إذا الرد قصير جدًا، نرجع رد افتراضي
103
  response = f"والله ما عندي معلومات كافية عن '{model}'، جربي موديل ثاني!"
104
  return {"message": response}
105
  except Exception as e:
@@ -107,12 +108,12 @@ async def get_car_info(model: str):
107
  return {"message": "عذرًا، خطأ أثناء توليد الرد."}
108
 
109
  car = available_cars[0]
110
- prompt = f"اعطيني معلومات عن سيارة {car['model']}، سعرها {car['price']} دولار ووضعها {car['status']}، بلهجة عراقية طبيعية."
111
  try:
112
  gen = load_generator()
113
- response = gen(prompt, max_length=100, num_return_sequences=1, do_sample=True, temperature=0.7)[0]['generated_text']
114
  response = response.split(".")[0].split("؟")[0].strip() + "."
115
- if len(response) < 20: # إذا الرد قصير جدًا
116
  response = f"سيارة {car['model']} سعرها {car['price']} دولار، ووضعها {car['status']}، حلوة ومناسبة للعراق!"
117
  return {"message": response}
118
  except Exception as e:
 
1
  from fastapi import FastAPI, HTTPException
2
  from pydantic import BaseModel
3
  from typing import Optional
4
+ from database import Database
5
  from transformers import pipeline
6
  from cachetools import TTLCache
7
  import logging
 
38
  global generator
39
  if generator is None:
40
  try:
41
+ # استخدام Falcon-Arabic-7B-Instruct بدلاً من AraGPT2
42
+ generator = pipeline('text-generation', model='tiiuae/falcon-7b-instruct', truncation=True, pad_token_id=0, eos_token_id=0, max_length=150, num_return_sequences=1)
43
+ logger.info("Successfully loaded Falcon-Arabic-7B-Instruct model")
44
  except Exception as e:
45
+ logger.error(f"Failed to load Falcon-Arabic-7B-Instruct model: {str(e)}")
46
  raise
47
  return generator
48
 
 
58
  @app.post("/cars/")
59
  async def add_car(car: Car):
60
  try:
61
+ car_id = db.create_car(car.model, car.price, car.status, car.description)
62
  return {"id": car_id, **car.dict()}
63
  except Exception as e:
64
  logger.error(f"Error creating car: {str(e)}")
 
70
  cached_result = cache.get("all_cars")
71
  if cached_result:
72
  return cached_result
73
+ cars = db.get_all_cars()
74
  cache["all_cars"] = cars
75
  return cars
76
  except Exception as e:
 
80
  @app.get("/cars/{car_id}")
81
  async def get_car(car_id: int):
82
  try:
83
+ car = db.get_car_by_id(car_id)
84
  if not car:
85
  raise HTTPException(status_code=404, detail="السيارة مو موجودة")
86
  return car
 
95
  available_cars = [car for car in cars if car['model'].lower() == model.lower()]
96
 
97
  if not available_cars:
98
+ prompt = f"ما اعرف هذا الموديل '{model}'، أجب بلهجة عراقية طبيعية عن معلومات عنه، مع ذكر السعر، المواصفات، أماكن البيع، أو قطع الغيار إذا كانت متاحة."
99
  try:
100
  gen = load_generator()
101
+ response = gen(prompt, max_length=150, num_return_sequences=1, do_sample=True, temperature=0.7)[0]['generated_text']
102
  response = response.split(".")[0].split("؟")[0].strip() + "."
103
+ if len(response) < 20:
104
  response = f"والله ما عندي معلومات كافية عن '{model}'، جربي موديل ثاني!"
105
  return {"message": response}
106
  except Exception as e:
 
108
  return {"message": "عذرًا، خطأ أثناء توليد الرد."}
109
 
110
  car = available_cars[0]
111
+ prompt = f"أجب بلهجة عراقية طبيعية عن سيارة {car['model']}، سعرها {car['price']} دولار ووضعها {car['status']}، مع ذكر مواصفاتها وأماكن بيعها إذا كانت متاحة."
112
  try:
113
  gen = load_generator()
114
+ response = gen(prompt, max_length=150, num_return_sequences=1, do_sample=True, temperature=0.7)[0]['generated_text']
115
  response = response.split(".")[0].split("؟")[0].strip() + "."
116
+ if len(response) < 20:
117
  response = f"سيارة {car['model']} سعرها {car['price']} دولار، ووضعها {car['status']}، حلوة ومناسبة للعراق!"
118
  return {"message": response}
119
  except Exception as e:
main.py CHANGED
@@ -1,6 +1,8 @@
1
  import os
2
  import random
3
  import logging
 
 
4
  from datetime import datetime, timedelta
5
  from telegram import Update, InlineKeyboardButton, InlineKeyboardMarkup
6
  from telegram.ext import (
@@ -13,8 +15,6 @@ from telegram.ext import (
13
  )
14
  from telegram.error import TelegramError
15
  from dotenv import load_dotenv
16
- import requests
17
- from enum import Enum
18
  from database import Database
19
  from utils import (
20
  escape_markdown,
@@ -26,6 +26,16 @@ from utils import (
26
  delete_channel_post,
27
  generate_reactions,
28
  )
 
 
 
 
 
 
 
 
 
 
29
 
30
  # Logging setup
31
  logging.basicConfig(
@@ -45,13 +55,140 @@ ADMIN_CHAT_ID = os.getenv("ADMIN_CHAT_ID")
45
  CHANNEL_ID = os.getenv("CHANNEL_ID")
46
  SUPPORT_USERNAME = os.getenv("SUPPORT_USERNAME", "@Support")
47
 
48
- # API endpoint for CarBot (update this to the public URL of your Space)
49
- CARBOT_API_URL = "https://imstevenleo-carbot-mixtral.hf.space/chat" # Change to your Space URL
50
-
51
  # Initialize database
52
  db = Database()
53
 
54
- # تعريف الحالات باستخدام enum لتجنب الأخطاء
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55
  class UserState(Enum):
56
  AD_INTRO = "ad_intro"
57
  AD_CAR_NAME_AR = "ad_car_name_ar"
@@ -71,6 +208,55 @@ class UserState(Enum):
71
  SEARCHING_AD = "searching_ad"
72
  CAR_GPT = "car_gpt"
73
  ADMIN_EDIT = "admin_edit"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
74
 
75
  # Start command
76
  async def start(update: Update, context: ContextTypes.DEFAULT_TYPE):
@@ -163,7 +349,7 @@ async def button_callback(update: Update, context: ContextTypes.DEFAULT_TYPE):
163
  context.bot_data.setdefault("car_gpt_active", {})[user_id] = True
164
  context.user_data["state"] = UserState.CAR_GPT.value
165
  await query.message.reply_text(
166
- escape_markdown("🤖 أكتبي طلبك لـ CarBot (مثل: سيارة رخيصة 50 ورقة):\nاكتبي 'قائمة' للرجوع."),
167
  reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]]),
168
  parse_mode='MarkdownV2'
169
  )
@@ -177,7 +363,7 @@ async def button_callback(update: Update, context: ContextTypes.DEFAULT_TYPE):
177
  reply_markup=InlineKeyboardMarkup([
178
  [InlineKeyboardButton("🚗 إضافة إعلان", callback_data="add_ad")],
179
  [InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]
180
- Shadow]),
181
  parse_mode='MarkdownV2'
182
  )
183
  return
@@ -199,6 +385,24 @@ async def button_callback(update: Update, context: ContextTypes.DEFAULT_TYPE):
199
  )
200
  return
201
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
202
  if data.startswith("admin_approve_") and user_id == ADMIN_CHAT_ID:
203
  ad_id = data[len("admin_approve_"):]
204
  try:
@@ -251,31 +455,160 @@ async def button_callback(update: Update, context: ContextTypes.DEFAULT_TYPE):
251
  parse_mode='MarkdownV2'
252
  )
253
 
254
- # CarBot recommendation generator using API
255
  async def generate_car_recommendation(user_input: str) -> str:
 
 
 
 
256
  try:
257
- response = requests.post(CARBOT_API_URL, json={"message": user_input})
258
- response.raise_for_status()
259
- return response.json()["response"]
260
- except requests.exceptions.RequestException as e:
261
- logger.error(f"API request failed: {str(e)}")
262
- return await generate_fallback_recommendation(user_input)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
263
  except Exception as e:
264
- logger.error(f"Unexpected error in generate_car_recommendation: {str(e)}")
265
- return await generate_fallback_recommendation(user_input)
266
-
267
- # Fallback recommendation
268
- async def generate_fallback_recommendation(user_input: str) -> str:
269
- cars = [
270
- {"name": "كيا أوبتيما", "price": "20-30 ألف دولار", "type": "سيدان", "location": "بغداد"},
271
- {"name": "تويوتا كورولا", "price": "18-25 ألف دولار", "type": "سيدان", "location": "البصرة"},
272
- {"name": "هيونداي توسان", "price": "25-35 ألف دولار", "type": "دفع رباعي", "location": "أربيل"}
273
- ]
274
- message = (
275
- f"🔍 ما لقيت نتايج دقيقة لـ '{escape_markdown(user_input)}'، بس أنصحك بهي السيارات الشائعة بالعراق:\n\n" +
276
- "\n".join([f"🚗 *{c['name']}*: {c['price']} \\({c['type']}\\) \\- متوفرة بـ {c['location']}" for c in cars]) +
277
- f"\n📌 الذكاء الاصطناعي غير متاح حاليًا! جربي طلب ثاني أو تواصلي مع \\{SUPPORT_USERNAME}\\!"
278
- )
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
279
  return message
280
 
281
  # Message handler
@@ -319,7 +652,11 @@ async def handle_message(update: Update, context: ContextTypes.DEFAULT_TYPE):
319
  await update.message.reply_text(
320
  escape_markdown(recommendation),
321
  parse_mode='MarkdownV2',
322
- reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]])
 
 
 
 
323
  )
324
  return
325
 
@@ -340,6 +677,78 @@ async def handle_message(update: Update, context: ContextTypes.DEFAULT_TYPE):
340
  )
341
  return
342
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
343
  if state == UserState.AD_CAR_NAME_AR.value:
344
  context.user_data["ad"]["car_name_ar"] = text
345
  context.user_data["state"] = UserState.AD_CAR_NAME_EN.value
@@ -361,7 +770,6 @@ async def handle_message(update: Update, context: ContextTypes.DEFAULT_TYPE):
361
  return
362
 
363
  if state == UserState.AD_PRICE.value:
364
- # تحقق بسيط إن السعر يحتوي على أرقام
365
  if not any(char.isdigit() for char in text):
366
  await update.message.reply_text(
367
  escape_markdown("❌ السعر لازم يحتوي على أرقام! جربي مرة ثانية:"),
@@ -379,7 +787,6 @@ async def handle_message(update: Update, context: ContextTypes.DEFAULT_TYPE):
379
  return
380
 
381
  if state == UserState.AD_MODEL.value:
382
- # تحقق بسيط إن الموديل رقم
383
  if not text.isdigit():
384
  await update.message.reply_text(
385
  escape_markdown("❌ الموديل لازم يكون رقم! جربي مرة ثانية:"),
 
1
  import os
2
  import random
3
  import logging
4
+ import json
5
+ import time
6
  from datetime import datetime, timedelta
7
  from telegram import Update, InlineKeyboardButton, InlineKeyboardMarkup
8
  from telegram.ext import (
 
15
  )
16
  from telegram.error import TelegramError
17
  from dotenv import load_dotenv
 
 
18
  from database import Database
19
  from utils import (
20
  escape_markdown,
 
26
  delete_channel_post,
27
  generate_reactions,
28
  )
29
+ import nltk
30
+ from nltk.tokenize import word_tokenize
31
+ from enum import Enum
32
+
33
+ # Download NLTK data
34
+ try:
35
+ nltk.download('punkt', quiet=True)
36
+ nltk.download('punkt_tab', quiet=True)
37
+ except Exception as e:
38
+ logging.error(f"Failed to download NLTK data: {str(e)}")
39
 
40
  # Logging setup
41
  logging.basicConfig(
 
55
  CHANNEL_ID = os.getenv("CHANNEL_ID")
56
  SUPPORT_USERNAME = os.getenv("SUPPORT_USERNAME", "@Support")
57
 
 
 
 
58
  # Initialize database
59
  db = Database()
60
 
61
+ # قاموس للمصطلحات المحلية
62
+ local_terms = {
63
+ "اوباما": "كرايسلر 300",
64
+ "غراضها": "قطع غيار"
65
+ }
66
+
67
+ # قاعدة بيانات محلية موسعة للسيارات الشائعة في العراق
68
+ popular_cars = [
69
+ {
70
+ "name": "تويوتا كورولا",
71
+ "model_year": "2016-2020",
72
+ "price": "4000-6000 دولار",
73
+ "type": "سيدان",
74
+ "maintenance": "سهلة ومتوفرة، قطع غيار متوفرة بكثرة",
75
+ "maintenance_locations": "بغداد، البصرة، أربيل",
76
+ "maintenance_cost": "150-300 ألف دينار سنويًا",
77
+ "popularity": "أكثر السيارات مبيعاً",
78
+ "location": "بغداد، البصرة",
79
+ "fuel_efficiency": "اقتصادية جدًا (12-15 كم/لتر)",
80
+ "suitable_for": "العائلات والشباب",
81
+ "spare_parts": "متوفرة في معظم ورش الصيانة بأسعار معقولة",
82
+ "reliability": "عالية جدًا"
83
+ },
84
+ {
85
+ "name": "هونداي اكسنت",
86
+ "model_year": "2015-2019",
87
+ "price": "3500-5000 دولار",
88
+ "type": "سيدان",
89
+ "maintenance": "متوسطة، قطع غيار متوفرة",
90
+ "maintenance_locations": "أربيل، النجف، بغداد",
91
+ "maintenance_cost": "200-400 ألف دينار سنويًا",
92
+ "popularity": "شائعة بين الشباب",
93
+ "location": "أربيل، النجف",
94
+ "fuel_efficiency": "جيدة (10-13 كم/لتر)",
95
+ "suitable_for": "الأفراد",
96
+ "spare_parts": "متوفرة لكن قد تكون أغلى قليلاً",
97
+ "reliability": "جيدة"
98
+ },
99
+ {
100
+ "name": "كيا ريو",
101
+ "model_year": "2014-2018",
102
+ "price": "4500-5500 دولار",
103
+ "type": "سيدان",
104
+ "maintenance": "متوسطة، قطع غيار متوفرة",
105
+ "maintenance_locations": "كربلاء، الموصل، بغداد",
106
+ "maintenance_cost": "250-450 ألف دينار سنويًا",
107
+ "popularity": "مناسبة للعائلات الصغيرة",
108
+ "location": "كربلاء، الموصل",
109
+ "fuel_efficiency": "متوسطة (9-12 كم/لتر)",
110
+ "suitable_for": "العائلات الصغيرة",
111
+ "spare_parts": "متوفرة في معظم المدن",
112
+ "reliability": "جيدة"
113
+ },
114
+ {
115
+ "name": "نيسان سنترا",
116
+ "model_year": "2016-2020",
117
+ "price": "5000-7000 دولار",
118
+ "type": "سيدان",
119
+ "maintenance": "متوسطة، قطع غيار باهظة قليلاً",
120
+ "maintenance_locations": "السليمانية، بغداد",
121
+ "maintenance_cost": "300-600 ألف دينار سنويًا",
122
+ "popularity": "محبوبة لقوتها",
123
+ "location": "السليمانية",
124
+ "fuel_efficiency": "جيدة (11-14 كم/لتر)",
125
+ "suitable_for": "الأفراد",
126
+ "spare_parts": "متوفرة لكن نادرة في بعض المناطق",
127
+ "reliability": "متوسطة إلى عالية"
128
+ },
129
+ {
130
+ "name": "تويوتا لاندكروزر",
131
+ "model_year": "2010-2015",
132
+ "price": "15000-25000 دولار",
133
+ "type": "دفع رباعي",
134
+ "maintenance": "متوسطة، قطع غيار متوفرة",
135
+ "maintenance_locations": "بغداد، دهوك، السليمانية",
136
+ "maintenance_cost": "500-1000 ألف دينار سنويًا",
137
+ "popularity": "شائعة في المناطق الريفية",
138
+ "location": "بغداد، دهوك",
139
+ "fuel_efficiency": "ثقيلة (6-8 كم/لتر)",
140
+ "suitable_for": "المناطق الوعرة",
141
+ "spare_parts": "متوفرة في المدن الكبرى",
142
+ "reliability": "عالية جدًا"
143
+ },
144
+ {
145
+ "name": "كرايسلر 300",
146
+ "model_year": "2018-2022",
147
+ "price": "3000000-4000000 دينار عراقي",
148
+ "type": "سيدان",
149
+ "maintenance": "متوسطة، قطع غيار متوفرة في المدن الكبرى",
150
+ "maintenance_locations": "بغداد، البصرة",
151
+ "maintenance_cost": "400-700 ألف دينار سنويًا",
152
+ "popularity": "شائعة بين عشاق السيارات الفاخرة",
153
+ "location": "بغداد، البصرة",
154
+ "fuel_efficiency": "متوسطة (8-10 كم/لتر)",
155
+ "suitable_for": "الأفراد والعائلات",
156
+ "spare_parts": "متوفرة لكن قد تكون باهظة",
157
+ "reliability": "جيدة"
158
+ },
159
+ {
160
+ "name": "هيونداي سوناتا",
161
+ "model_year": "2015-2019",
162
+ "price": "6000-8000 دولار",
163
+ "type": "سيدان",
164
+ "maintenance": "متوسطة، قطع غيار متوفرة",
165
+ "maintenance_locations": "بغداد، كربلاء، النجف",
166
+ "maintenance_cost": "300-500 ألف دينار سنويًا",
167
+ "popularity": "شائعة بين العائلات",
168
+ "location": "بغداد، كربلاء",
169
+ "fuel_efficiency": "جيدة (10-12 كم/لتر)",
170
+ "suitable_for": "العائلات",
171
+ "spare_parts": "متوفرة بأسعار معقولة",
172
+ "reliability": "جيدة"
173
+ },
174
+ {
175
+ "name": "تويوتا برادو",
176
+ "model_year": "2012-2018",
177
+ "price": "12000-18000 دولار",
178
+ "type": "دفع رباعي",
179
+ "maintenance": "متوسطة، قطع غيار متوفرة",
180
+ "maintenance_locations": "أربيل، دهوك، بغداد",
181
+ "maintenance_cost": "400-800 ألف دينار سنويًا",
182
+ "popularity": "شائعة في المناطق الريفية والمدن",
183
+ "location": "أربيل، دهوك",
184
+ "fuel_efficiency": "متوسطة (7-9 كم/لتر)",
185
+ "suitable_for": "العائلات والمناطق الوعرة",
186
+ "spare_parts": "متوفرة في المدن الكبرى",
187
+ "reliability": "عالية"
188
+ }
189
+ ]
190
+
191
+ # تعريف الحالات باستخدام enum
192
  class UserState(Enum):
193
  AD_INTRO = "ad_intro"
194
  AD_CAR_NAME_AR = "ad_car_name_ar"
 
208
  SEARCHING_AD = "searching_ad"
209
  CAR_GPT = "car_gpt"
210
  ADMIN_EDIT = "admin_edit"
211
+ MAINTENANCE = "maintenance"
212
+ SPARE_PARTS = "spare_parts"
213
+
214
+ # Cache لتسريع الاستجابة
215
+ recommendation_cache = {}
216
+
217
+ def load_scraped_data(filename: str = "cars_data.json") -> list:
218
+ if not os.path.exists(filename):
219
+ logger.warning(f"ملف {filename} غير موجود. سيتم إرجاع قائمة فارغة.")
220
+ return []
221
+ try:
222
+ with open(filename, "r", encoding="utf-8") as f:
223
+ data = json.load(f)
224
+ if not isinstance(data, list):
225
+ logger.error(f"ملف {filename} لا يحتوي على قائمة صالحة.")
226
+ return []
227
+ return data
228
+ except json.JSONDecodeError as e:
229
+ logger.error(f"خطأ في تحميل {filename}: {str(e)}")
230
+ return []
231
+ except Exception as e:
232
+ logger.error(f"خطأ غير متوقع في تحميل {filename}: {str(e)}")
233
+ return []
234
+
235
+ # تحميل بيانات السكرابر
236
+ scraped_cars = load_scraped_data()
237
+
238
+ # تحليل السؤال باستخدام NLP
239
+ def analyze_question(text: str) -> dict:
240
+ try:
241
+ tokens = word_tokenize(text.lower())
242
+ keywords = [
243
+ 'سيارة', 'سعر', 'موديل', 'سنة', 'صيانة', 'قطع', 'أفضل', 'أكثر', 'شائعة', 'عائلية', 'رخيصة', 'ورقة',
244
+ 'تويوتا', 'هونداي', 'كيا', 'نيسان', 'بغداد', 'البصرة', 'أربيل', 'كرايسلر'
245
+ ]
246
+ context = {k: k in tokens for k in keywords}
247
+ context['price'] = next((int(k) * 100 for k in tokens if k.isdigit() and 'ورقة' in tokens), None)
248
+ context['model_year'] = next((k for k in tokens if k.isdigit() and len(k) == 4 and 2000 <= int(k) <= 2025), None)
249
+ context['mileage'] = next((k for k in tokens if k.isdigit() and 'ألف' in tokens), None)
250
+ for term, actual in local_terms.items():
251
+ if term in tokens:
252
+ context['car_name'] = actual
253
+ return context
254
+ except Exception as e:
255
+ logger.error(f"خطأ في تحليل السؤال: {str(e)}")
256
+ tokens = text.lower().split()
257
+ context = {k: k in tokens for k in ['سيارة', 'سعر', 'موديل', 'صيانة', 'قطع', 'رخيصة']}
258
+ context['car_name'] = next((local_terms.get(t) for t in tokens if t in local_terms), None)
259
+ return context
260
 
261
  # Start command
262
  async def start(update: Update, context: ContextTypes.DEFAULT_TYPE):
 
349
  context.bot_data.setdefault("car_gpt_active", {})[user_id] = True
350
  context.user_data["state"] = UserState.CAR_GPT.value
351
  await query.message.reply_text(
352
+ escape_markdown("🤖 أكتبي طلبك لـ CarBot (مثل: سيارة رخيصة 50 ورقة، أو أفضل سيارة عائلية):\nاكتبي 'قائمة' للرجوع."),
353
  reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]]),
354
  parse_mode='MarkdownV2'
355
  )
 
363
  reply_markup=InlineKeyboardMarkup([
364
  [InlineKeyboardButton("🚗 إضافة إعلان", callback_data="add_ad")],
365
  [InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]
366
+ ]),
367
  parse_mode='MarkdownV2'
368
  )
369
  return
 
385
  )
386
  return
387
 
388
+ if data == "maintenance":
389
+ context.user_data["state"] = UserState.MAINTENANCE.value
390
+ await query.message.reply_text(
391
+ escape_markdown("🛠️ أكتبي اسم السيارة لمعلومات الصيانة (مثل: تويوتا كورولا):"),
392
+ reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]]),
393
+ parse_mode='MarkdownV2'
394
+ )
395
+ return
396
+
397
+ if data == "spare_parts":
398
+ context.user_data["state"] = UserState.SPARE_PARTS.value
399
+ await query.message.reply_text(
400
+ escape_markdown("🔩 أكتبي اسم السيارة لمعلومات قطع الغيار (مثل: تويوتا كورولا):"),
401
+ reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]]),
402
+ parse_mode='MarkdownV2'
403
+ )
404
+ return
405
+
406
  if data.startswith("admin_approve_") and user_id == ADMIN_CHAT_ID:
407
  ad_id = data[len("admin_approve_"):]
408
  try:
 
455
  parse_mode='MarkdownV2'
456
  )
457
 
458
+ # CarBot recommendation generator using Falcon-Arabic
459
  async def generate_car_recommendation(user_input: str) -> str:
460
+ cache_key = user_input.lower().strip()
461
+ if cache_key in recommendation_cache and time.time() - recommendation_cache[cache_key]["timestamp"] < 3600:
462
+ return recommendation_cache[cache_key]["response"]
463
+
464
  try:
465
+ context = analyze_question(user_input)
466
+ keywords = user_input.lower().split()
467
+ prompt = None
468
+
469
+ # تحسين المطالبات لتكون أكثر تحديدًا
470
+ if context.get('ورقة') and context.get('price'):
471
+ price_dollars = context['price']
472
+ prompt = f"ابحث عن سيارة بسعر حوالي {price_dollars} دولار أو أقل في العراق، وأجب بلهجة عراقية طبيعية عن سعرها، مواصفاتها، أماكن بيعها، وتوفر قطع الغيار."
473
+ elif context.get('صيانة') or context.get('قطع'):
474
+ car_name = context.get('car_name', next((k for k in keywords if k in [car["name"].split()[0].lower() for car in popular_cars]), user_input))
475
+ prompt = f"أجب بلهجة عراقية طبيعية عن صيانة أو قطع غيار السيارة {car_name} في العراق، مع ذكر أماكن الصيانة، التكلفة، وتوفر القطع."
476
+ elif context.get('أفضل') or context.get('أكثر') or context.get('شائعة'):
477
+ prompt = f"أجب بلهجة عراقية طبيعية عن أفضل أو أكثر سيارة مبيعاً في العراق، مع ذكر سعرها، مواصفاتها، أماكن بيعها، ولماذا هي شائعة."
478
+ elif context.get('عائلية'):
479
+ prompt = f"ابحث عن سيارة عائلية مناسبة في العراق، وأجب بلهجة عراقية طبيعية عن سعرها، مواصفاتها، أماكن بيعها، ولماذا مناسبة للعائلات."
480
+ elif context.get('model_year'):
481
+ car_name = context.get('car_name', next((k for k in keywords if k in [car["name"].split()[0].lower() for car in popular_cars]), "غير محدد"))
482
+ prompt = f"أجب بلهجة عراقية طبيعية عن سيارة {car_name} موديل {context['model_year']} في العراق، مع ذكر سعرها، مواصفاتها، أماكن بيعها، وتوفر قطع الغيار."
483
+ else:
484
+ prompt = f"أجب بلهجة عراقية طبيعية عن سؤال حول السيارات في العراق: {user_input}. قدم معلومات عن السعر، المواصفات، أماكن البيع، وقطع الغيار إذا كانت متاحة."
485
+
486
+ # استخدام Falcon-Arabic
487
+ gen = load_generator()
488
+ response = gen(prompt, max_length=150, num_return_sequences=1, do_sample=True, temperature=0.7)[0]['generated_text']
489
+ response = response.split(".")[0].split("؟")[0].strip() + "."
490
+
491
+ # تنظيف الرد ودمج مع بيانات السكرابر
492
+ if len(response) < 30 or "غير معروف" in response or "ما اعرف" in response:
493
+ fallback_response = await generate_fallback_recommendation(user_input, context)
494
+ recommendation_cache[cache_key] = {"response": fallback_response, "timestamp": time.time()}
495
+ return fallback_response
496
+
497
+ recommendation_cache[cache_key] = {"response": response, "timestamp": time.time()}
498
+ return response
499
  except Exception as e:
500
+ logger.error(f"Error in generate_car_recommendation: {str(e)}")
501
+ fallback_response = await generate_fallback_recommendation(user_input, context)
502
+ recommendation_cache[cache_key] = {"response": fallback_response, "timestamp": time.time()}
503
+ return fallback_response
504
+
505
+ # Fallback recommendation with enhanced Iraqi context
506
+ async def generate_fallback_recommendation(user_input: str, context: dict) -> str:
507
+ keywords = user_input.lower().split()
508
+
509
+ # البحث في بيانات السكرابر أولاً
510
+ matched_scraped_car = None
511
+ if context.get('price'):
512
+ price_dollars = context['price']
513
+ matched_scraped_car = next(
514
+ (c for c in scraped_cars if any(k in c.get("name", "").lower() for k in keywords) and
515
+ any(str(price_dollars) in c.get("price", "") for k in keywords)), None
516
+ )
517
+ elif context.get('model_year'):
518
+ matched_scraped_car = next(
519
+ (c for c in scraped_cars if any(k in c.get("name", "").lower() for k in keywords) and
520
+ context['model_year'] in c.get("model_year", "")), None
521
+ )
522
+ else:
523
+ matched_scraped_car = next(
524
+ (c for c in scraped_cars if any(k in c.get("name", "").lower() for k in keywords)), None
525
+ )
526
+
527
+ if matched_scraped_car:
528
+ message = (
529
+ f"🚗 بناءً على طلبك '{user_input}'، أنصحك بـ {matched_scraped_car.get('name', 'غير محدد')}:\n"
530
+ f"السعر: {matched_scraped_car.get('price', 'غير محدد')}\n"
531
+ f"الموديل: {matched_scraped_car.get('model_year', 'غير محدد')}\n"
532
+ f"الموقع: {matched_scraped_car.get('location', 'غير محدد')}\n"
533
+ f"المواصفات: {matched_scraped_car.get('description', 'غير محدد')}\n"
534
+ f"الصيانة: {matched_scraped_car.get('maintenance', 'غير محدد')}\n"
535
+ f"قطع الغيار: {matched_scraped_car.get('spare_parts', 'غير محدد')}"
536
+ )
537
+ return message
538
+
539
+ # إذا ما لقينا في السكرابر، نرجع لـ popular_cars
540
+ car = random.choice(popular_cars)
541
+ if context.get('ورقة') and context.get('price'):
542
+ price_dollars = context['price']
543
+ matched_car = next((c for c in popular_cars if int(c["price"].split("-")[1].replace(" دولار", "")) <= price_dollars), car)
544
+ message = (
545
+ f"🚗 إذا بدك سيارة بـ {price_dollars} دولار، أنصحك بـ {matched_car['name']}:\n"
546
+ f"السعر: {matched_car['price']}\n"
547
+ f"النوع: {matched_car['type']}\n"
548
+ f"الصيانة: {matched_car['maintenance']} (بتكلف حوالي {matched_car['maintenance_cost']})\n"
549
+ f"أماكن الصيانة: {matched_car['maintenance_locations']}\n"
550
+ f"الشعبية: {matched_car['popularity']}\n"
551
+ f"تلكينها بـ: {matched_car['location']}\n"
552
+ f"كفاءة البنزين: {matched_car['fuel_efficiency']}\n"
553
+ f"قطع الغيار: {matched_car['spare_parts']}"
554
+ )
555
+ elif context.get('صيانة') or context.get('قطع'):
556
+ matched_car = next((c for c in popular_cars if any(k in c["name"].lower() for k in keywords)), car)
557
+ message = (
558
+ f"🚗 معلومات صيانة وقطع غيار لسيارة {matched_car['name']}:\n"
559
+ f"الصيانة: {matched_car['maintenance']}\n"
560
+ f"تكلفة الصيانة: {matched_car['maintenance_cost']}\n"
561
+ f"أماكن الصيانة: {matched_car['maintenance_locations']}\n"
562
+ f"قطع الغيار: {matched_car['spare_parts']}"
563
+ )
564
+ elif context.get('أفضل') or context.get('أكثر') or context.get('شائعة'):
565
+ matched_car = next((c for c in popular_cars if "أكثر" in c["popularity"]), car)
566
+ message = (
567
+ f"🚗 أكثر سيارة شائعة في العراق هي {matched_car['name']}:\n"
568
+ f"السعر: {matched_car['price']}\n"
569
+ f"النوع: {matched_car['type']}\n"
570
+ f"الصيانة: {matched_car['maintenance']}\n"
571
+ f"الشعبية: {matched_car['popularity']}\n"
572
+ f"تلكينها بـ: {matched_car['location']}\n"
573
+ f"كفاءة البنزين: {matched_car['fuel_efficiency']}\n"
574
+ f"قطع الغيار: {matched_car['spare_parts']}"
575
+ )
576
+ elif context.get('عائلية'):
577
+ matched_car = next((c for c in popular_cars if "عائلات" in c["suitable_for"] or "دفع رباعي" in c["type"]), car)
578
+ message = (
579
+ f"🚗 إذا بدك سيارة عائلية، أنصحك بـ {matched_car['name']}:\n"
580
+ f"السعر: {matched_car['price']}\n"
581
+ f"النوع: {matched_car['type']}\n"
582
+ f"الصيانة: {matched_car['maintenance']}\n"
583
+ f"الشعبية: {matched_car['popularity']}\n"
584
+ f"تلكينها بـ: {matched_car['location']}\n"
585
+ f"كفاءة البنزين: {matched_car['fuel_efficiency']}\n"
586
+ f"قطع الغيار: {matched_car['spare_parts']}"
587
+ )
588
+ elif context.get('model_year'):
589
+ matched_car = next((c for c in popular_cars if context['model_year'] in c["model_year"]), car)
590
+ message = (
591
+ f"🚗 بناءً على طلبك '{user_input}'، أنصحك بـ {matched_car['name']}:\n"
592
+ f"السعر: {matched_car['price']}\n"
593
+ f"النوع: {matched_car['type']}\n"
594
+ f"الصيانة: {matched_car['maintenance']}\n"
595
+ f"الشعبية: {matched_car['popularity']}\n"
596
+ f"تلكينها بـ: {matched_car['location']}\n"
597
+ f"كفاءة البنزين: {matched_car['fuel_efficiency']}\n"
598
+ f"قطع الغيار: {matched_car['spare_parts']}"
599
+ )
600
+ else:
601
+ matched_car = next((c for c in popular_cars if any(k in c["name"].lower() for k in keywords)), car)
602
+ message = (
603
+ f"🔍 ما لقيت معلومات دقيقة عن '{user_input}'، بس أنصحك بـ {matched_car['name']}:\n"
604
+ f"السعر: {matched_car['price']}\n"
605
+ f"النوع: {matched_car['type']}\n"
606
+ f"الصيانة: {matched_car['maintenance']}\n"
607
+ f"الشعبية: {matched_car['popularity']}\n"
608
+ f"تلكينها بـ: {matched_car['location']}\n"
609
+ f"كفاءة البنزين: {matched_car['fuel_efficiency']}\n"
610
+ f"قطع الغيار: {matched_car['spare_parts']}"
611
+ )
612
  return message
613
 
614
  # Message handler
 
652
  await update.message.reply_text(
653
  escape_markdown(recommendation),
654
  parse_mode='MarkdownV2',
655
+ reply_markup=InlineKeyboardMarkup([
656
+ [InlineKeyboardButton("صيانة", callback_data="maintenance")],
657
+ [InlineKeyboardButton("قطع غيار", callback_data="spare_parts")],
658
+ [InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]
659
+ ])
660
  )
661
  return
662
 
 
677
  )
678
  return
679
 
680
+ if state == UserState.MAINTENANCE.value:
681
+ context = analyze_question(text)
682
+ car_name = context.get('car_name', text)
683
+ prompt = f"أجب بلهجة عراقية طبيعية عن صيانة السيارة {car_name} في العراق، مع ذكر أماكن الصيانة والتكلفة إن أمكن."
684
+ try:
685
+ gen = load_generator()
686
+ response = gen(prompt, max_length=150, num_return_sequences=1, do_sample=True, temperature=0.7)[0]['generated_text']
687
+ response = response.split(".")[0].split("؟")[0].strip() + "."
688
+ if len(response) < 30:
689
+ matched_car = next((c for c in popular_cars if car_name.lower() in c["name"].lower()), random.choice(popular_cars))
690
+ response = (
691
+ f"🚗 معلومات صيانة لسيارة {matched_car['name']}:\n"
692
+ f"الصيانة: {matched_car['maintenance']}\n"
693
+ f"تكلفة الصيانة: {matched_car['maintenance_cost']}\n"
694
+ f"أماكن الصيانة: {matched_car['maintenance_locations']}"
695
+ )
696
+ await update.message.reply_text(
697
+ escape_markdown(response),
698
+ parse_mode='MarkdownV2',
699
+ reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]])
700
+ )
701
+ except Exception as e:
702
+ logger.error(f"Error fetching maintenance info: {str(e)}")
703
+ matched_car = next((c for c in popular_cars if car_name.lower() in c["name"].lower()), random.choice(popular_cars))
704
+ message = (
705
+ f"🚗 معلومات صيانة لسيارة {matched_car['name']}:\n"
706
+ f"الصيانة: {matched_car['maintenance']}\n"
707
+ f"تكلفة الصيانة: {matched_car['maintenance_cost']}\n"
708
+ f"أماكن الصيانة: {matched_car['maintenance_locations']}"
709
+ )
710
+ await update.message.reply_text(
711
+ escape_markdown(message),
712
+ parse_mode='MarkdownV2',
713
+ reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]])
714
+ )
715
+ return
716
+
717
+ if state == UserState.SPARE_PARTS.value:
718
+ context = analyze_question(text)
719
+ car_name = context.get('car_name', text)
720
+ prompt = f"أجب بلهجة عراقية طبيعية عن قطع غيار السيارة {car_name} في العراق، مع ذكر أماكن التوفر والأسعار إن أمكن."
721
+ try:
722
+ gen = load_generator()
723
+ response = gen(prompt, max_length=150, num_return_sequences=1, do_sample=True, temperature=0.7)[0]['generated_text']
724
+ response = response.split(".")[0].split("؟")[0].strip() + "."
725
+ if len(response) < 30:
726
+ matched_car = next((c for c in popular_cars if car_name.lower() in c["name"].lower()), random.choice(popular_cars))
727
+ response = (
728
+ f"🔩 قطع غيار لسيارة {matched_car['name']}:\n"
729
+ f"التوفر: {matched_car['spare_parts']}\n"
730
+ f"أماكن الصيانة: {matched_car['maintenance_locations']}"
731
+ )
732
+ await update.message.reply_text(
733
+ escape_markdown(response),
734
+ parse_mode='MarkdownV2',
735
+ reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]])
736
+ )
737
+ except Exception as e:
738
+ logger.error(f"Error fetching spare parts info: {str(e)}")
739
+ matched_car = next((c for c in popular_cars if car_name.lower() in c["name"].lower()), random.choice(popular_cars))
740
+ message = (
741
+ f"🔩 قطع غيار لسيارة {matched_car['name']}:\n"
742
+ f"التوفر: {matched_car['spare_parts']}\n"
743
+ f"أماكن الصيانة: {matched_car['maintenance_locations']}"
744
+ )
745
+ await update.message.reply_text(
746
+ escape_markdown(message),
747
+ parse_mode='MarkdownV2',
748
+ reply_markup=InlineKeyboardMarkup([[InlineKeyboardButton("🏠 القائمة", callback_data="main_menu")]])
749
+ )
750
+ return
751
+
752
  if state == UserState.AD_CAR_NAME_AR.value:
753
  context.user_data["ad"]["car_name_ar"] = text
754
  context.user_data["state"] = UserState.AD_CAR_NAME_EN.value
 
770
  return
771
 
772
  if state == UserState.AD_PRICE.value:
 
773
  if not any(char.isdigit() for char in text):
774
  await update.message.reply_text(
775
  escape_markdown("❌ السعر لازم يحتوي على أرقام! جربي مرة ثانية:"),
 
787
  return
788
 
789
  if state == UserState.AD_MODEL.value:
 
790
  if not text.isdigit():
791
  await update.message.reply_text(
792
  escape_markdown("❌ الموديل لازم يكون رقم! جربي مرة ثانية:"),
scraper.py ADDED
@@ -0,0 +1,132 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import requests
2
+ from bs4 import BeautifulSoup
3
+ import logging
4
+ import json
5
+ import time
6
+ from typing import List, Dict
7
+ from random import choice
8
+ from datetime import datetime
9
+
10
+ # Logging setup
11
+ logging.basicConfig(
12
+ format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
13
+ level=logging.INFO,
14
+ handlers=[logging.FileHandler("scraper.log", encoding='utf-8'), logging.StreamHandler()]
15
+ )
16
+ logger = logging.getLogger(__name__)
17
+
18
+ # قائمة User-Agent عشوائية لتجنب الحظر
19
+ USER_AGENTS = [
20
+ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
21
+ "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15",
22
+ "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36",
23
+ "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0"
24
+ ]
25
+
26
+ # Headers لمحاكاة متصفح حقيقي
27
+ def get_headers() -> dict:
28
+ return {
29
+ "User-Agent": choice(USER_AGENTS),
30
+ "Accept-Language": "en-US,en;q=0.9",
31
+ "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
32
+ "Connection": "keep-alive"
33
+ }
34
+
35
+ def scrape_website(url: str, retries: int = 3) -> List[Dict]:
36
+ """
37
+ جمع بيانات السيارات من موقع ويب معين مع إعادة المحاولة عند الفشل.
38
+ """
39
+ for attempt in range(retries):
40
+ try:
41
+ response = requests.get(url, headers=get_headers(), timeout=10)
42
+ response.raise_for_status()
43
+ soup = BeautifulSoup(response.content, "html.parser")
44
+ cars_data = []
45
+
46
+ # محددات عامة (يجب تعديلها حسب هيكلية كل موقع)
47
+ car_listings = soup.select(".car-item, .listing-item, .product-item, .car-listing, .ad-item, .vehicle-item")
48
+ if not car_listings:
49
+ logger.warning(f"لم يتم العثور على قوائم سيارات في {url}. تحققي من المحددات.")
50
+ return cars_data
51
+
52
+ for car in car_listings:
53
+ try:
54
+ car_data = {}
55
+ # تحقق من وجود العنصر قبل استخراج النص
56
+ name_elem = car.select_one(".car-title, .product-title, .listing-title, .ad-title, .vehicle-title, h2, h3")
57
+ car_data["name"] = name_elem.text.strip() if name_elem else "غير محدد"
58
+
59
+ price_elem = car.select_one(".car-price, .price, .product-price, .listing-price, .ad-price")
60
+ car_data["price"] = price_elem.text.strip() if price_elem else "غير محدد"
61
+
62
+ year_elem = car.select_one(".car-year, .year, .model-year")
63
+ car_data["model_year"] = year_elem.text.strip() if year_elem else "غير محدد"
64
+
65
+ location_elem = car.select_one(".car-location, .location, .city")
66
+ car_data["location"] = location_elem.text.strip() if location_elem else "غير محدد"
67
+
68
+ desc_elem = car.select_one(".car-description, .description, .details")
69
+ car_data["description"] = desc_elem.text.strip() if desc_elem else "غير محدد"
70
+
71
+ # إضافة بيانات الصيانة وقطع الغيار
72
+ maintenance_elem = car.select_one(".maintenance, .service-info")
73
+ car_data["maintenance"] = maintenance_elem.text.strip() if maintenance_elem else "غير محدد"
74
+
75
+ spare_parts_elem = car.select_one(".spare-parts, .parts-info")
76
+ car_data["spare_parts"] = spare_parts_elem.text.strip() if spare_parts_elem else "غير محدد"
77
+
78
+ car_data["source"] = url.split("//")[1].split("/")[0]
79
+ car_data["scraped_at"] = datetime.now().isoformat()
80
+ cars_data.append(car_data)
81
+ logger.info(f"تم جمع بيانات: {car_data['name']} - {car_data['price']} من {url}")
82
+ except Exception as e:
83
+ logger.error(f"خطأ في استخراج بيانات سيارة من {url}: {str(e)}")
84
+ continue
85
+
86
+ return cars_data
87
+ except requests.exceptions.RequestException as e:
88
+ logger.error(f"خطأ في الاتصال بـ {url} (محاولة {attempt + 1}/{retries}): {str(e)}")
89
+ if attempt < retries - 1:
90
+ time.sleep(5 * (attempt + 1)) # تأخير متزايد
91
+ else:
92
+ return []
93
+ except Exception as e:
94
+ logger.error(f"خطأ غير متوقع في scrape_website لـ {url}: {str(e)}")
95
+ return []
96
+
97
+ def save_data(data: List[Dict], filename: str = "cars_data.json"):
98
+ """
99
+ تخزين البيانات في ملف JSON.
100
+ """
101
+ try:
102
+ with open(filename, "w", encoding="utf-8") as f:
103
+ json.dump(data, f, ensure_ascii=False, indent=4)
104
+ logger.info(f"تم تخزين {len(data)} عنصر في {filename}")
105
+ except Exception as e:
106
+ logger.error(f"خطأ في تخزين البيانات في {filename}: {str(e)}")
107
+
108
+ if __name__ == "__main__":
109
+ websites = [
110
+ "https://iq.labeb.com/ct/cars-for-sale-558",
111
+ "https://www.akosayara.com/",
112
+ "https://www.iqcars.net/",
113
+ "https://alrashad.com.iq/",
114
+ "https://website.tao.iq/index.php/ar/",
115
+ "https://www.quattro-iq.com/home-ar",
116
+ "https://iq.opensooq.com/ar/%D9%85%D8%B1%D8%A7%D9%83%D8%B2-%D8%AE%D8%AF%D9%85%D8%A7%D8%AA-%D8%A7%D9%84%D8%B3%D9%8A%D8%A7%D8%B1%D8%A7%D8%AA/%D8%A7%D9%84%D8%AE%D8%AF%D9%85%D8%A7%D8%AA/%D9%82%D8%B7%D8%B9-%D8%BA%D9%8A%D8%A7%D8%B1",
117
+ "https://ghiarati.com/",
118
+ "https://www.motors.iq/",
119
+ "https://www.alsayyara.com/"
120
+ ]
121
+
122
+ while True:
123
+ all_cars_data = []
124
+ for url in websites:
125
+ logger.info(f"جمع البيانات من {url}")
126
+ cars_data = scrape_website(url)
127
+ all_cars_data.extend(cars_data)
128
+ time.sleep(5) # تأخير 5 ثواني لتجنب الحظر
129
+
130
+ save_data(all_cars_data)
131
+ logger.info("تم الانتهاء من جمع البيانات. النوم لمدة ساعة...")
132
+ time.sleep(3600) # تحديث كل ساعة