Spaces:

sahilmayekar
/

FinanceNews

Running

App Files Files Community

FinanceNews / gfnews.py

sahilmayekar

console prints removed.

f0583ee 6 months ago

raw

history blame contribute delete

9.64 kB

	from typing import List, Dict, Optional
	import requests
	from bs4 import BeautifulSoup
	from urllib.parse import quote, urlparse, parse_qs
	import time
	import random
	from datetime import datetime, timedelta
	from dateutil.relativedelta import relativedelta
	from math import ceil




	class GoogleBussinessNews:
	BASE_URL = "https://www.google.com/search"

	USER_AGENTS = [
	"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
	"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
	"Mozilla/5.0 (Linux; Android 10; SM-A505F) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Mobile Safari/537.36"
	]

	financial_business_news_domains = [
	"economictimes.indiatimes.com",
	"business-standard.com"
	]


	SELECTORS = {
	"title": "div.n0jPhd",
	"url": "a.WlydOe",
	"description": "div.GI74Re",
	"date": "div.rbYSKb",
	"source": "div.NUnG9d"
	}

	def __init__(self, financial_business_news_domains, max_articles: int = 50, max_retries: int = 3):
	"""
	Initialize the scraper with configuration options.
	"""
	self.article_per_pages = 100
	self.max_pages = ceil(max_articles/self.article_per_pages)
	self.max_articles = max_articles
	self.max_retries = max_retries
	self.financial_business_news_domains = financial_business_news_domains
	self.proxies = [
	# {"http": "http://207.244.217.165:6712"},
	]


	def construct_url(
	self,
	query: str,
	start_date: datetime = None,
	end_date: datetime = None,
	page: int = 0,
	hl: str = "en",
	lr: str = "lang_en",
	num: int = None,
	sort_by_date: bool = False
	) -> str:

	if num is None:
	num = self.article_per_pages

	if start_date is None:
	start_date = datetime.today() - timedelta(days=1)
	if end_date is None:
	end_date = datetime.today() # Current date

	date_filter = (
	f"cdr:1,"
	f"cd_min:{start_date.strftime('%m/%d/%Y')},"
	f"cd_max:{end_date.strftime('%m/%d/%Y')}"
	)

	tbs_parts = [date_filter]

	if sort_by_date:
	tbs_parts.append("sbd:1")

	params = {
	"q": quote(query+" "+" OR ".join([f'site:{x}' for x in self.financial_business_news_domains])),
	"tbm": "nws",
	"tbs": ",".join(tbs_parts),
	"start": page * num,
	"hl": hl,
	"lr": lr,
	"num": str(num),
	}

	# Build URL
	return f"{self.BASE_URL}?{'&'.join([f'{k}={v}' for k, v in params.items()])}"

	def get_random_delay(self) -> float:
	"""Generate a longer random delay between requests to avoid detection."""
	return random.uniform(5, 15)

	def get_headers(self):
	"""Return a random User-Agent."""
	return {
	"User-Agent": random.choice(self.USER_AGENTS),
	"Accept-Language": "en-US,en;q=0.9",
	}

	def is_captcha_page(self, html: str) -> bool:
	"""Check if the response contains a CAPTCHA."""
	return "Our systems have detected unusual traffic" in html

	def parse_date(self, date_str: Optional[str]) -> Optional[str]:
	"""
	Convert relative date strings (e.g., '1 day ago', '2 weeks ago', '1 month ago')
	or absolute date strings ('24 Mar 2023', '2023-03-24') to YYYY-MM-DD format.
	"""
	if not date_str:
	return None

	date_str = date_str.lower().strip()
	today = datetime.today()

	try:
	if "ago" in date_str:
	date_str = date_str.replace("ago", "").strip()

	if "hour" in date_str or "minute" in date_str or "second" in date_str:
	return today.strftime("%Y-%m-%d")

	if "day" in date_str:
	days = int(date_str.split()[0])
	return (today - timedelta(days=days)).strftime("%Y-%m-%d")

	if "week" in date_str:
	weeks = int(date_str.split()[0])
	return (today - timedelta(weeks=weeks)).strftime("%Y-%m-%d")

	if "month" in date_str:
	months = int(date_str.split()[0])
	return (today - relativedelta(months=months)).strftime("%Y-%m-%d")

	if "year" in date_str:
	years = int(date_str.split()[0])
	return (today - relativedelta(years=years)).strftime("%Y-%m-%d")

	try:
	return datetime.strptime(date_str, "%Y-%m-%d").strftime("%Y-%m-%d")
	except ValueError:
	pass

	try:
	return datetime.strptime(date_str, "%d %b %Y").strftime("%Y-%m-%d") # e.g., "24 Mar 2023"
	except ValueError:
	pass

	try:
	return datetime.strptime(date_str, "%d %B %Y").strftime("%Y-%m-%d") # e.g., "24 March 2023"
	except ValueError:
	pass

	except Exception as e:
	print(f"Failed to parse date '{date_str}': {e}")

	return None


	def extract_articles(self, html: str) -> List[Dict[str, Optional[str]]]:
	"""Extract article details from the HTML."""
	soup = BeautifulSoup(html, "html.parser")
	articles = []

	for container in soup.find_all("div", class_="SoaBEf"):
	article = {
	"title": self._safe_extract(container, self.SELECTORS["title"], "text"),
	"url": self._clean_url(self._safe_extract(container, self.SELECTORS["url"], "href")),
	"source": self._safe_extract(container, self.SELECTORS["source"], "text"),
	"date": self.parse_date(self._safe_extract(container, self.SELECTORS["date"], "text")),
	"description": self._safe_extract(container, self.SELECTORS["description"], "text"),
	}

	if article["url"]:
	articles.append(article)

	return articles

	def _clean_url(self, url: Optional[str]) -> Optional[str]:
	"""Clean and extract the actual URL from Google's redirect links."""
	if url and url.startswith("/url?"):
	parsed = urlparse(url)
	qs = parse_qs(parsed.query)
	return qs.get("q", [url])[0]
	return url

	def _safe_extract(self, parent, selector: str, attr: str) -> Optional[str]:
	"""Safely extract text or attributes from an element."""
	try:
	element = parent.select_one(selector)
	if not element:
	return None
	if attr == "text":
	return element.get_text().strip()
	return element.get(attr, "")
	except Exception as e:
	print(f"Failed to extract {selector}: {e}")
	return None

	def scrape(self, query: str, start_date: datetime, end_date: datetime) -> List[Dict[str, Optional[str]]]:
	"""
	Scrape Google News articles based on the query and date range.
	"""
	all_articles = []

	empty_page_count = 0
	for page in range(self.max_pages):
	if len(all_articles) >= self.max_articles:
	print(f"Reached article limit ({self.max_articles}). Stopping.")
	break

	time.sleep(self.get_random_delay())
	url = self.construct_url(query, start_date, end_date, page)

	retries = 0
	while retries < self.max_retries:
	try:
	print(f"Fetching page {page + 1}: {url}")
	response = requests.get(
	url,
	headers=self.get_headers(),
	proxies=random.choice(self.proxies) if self.proxies else None,
	timeout=30,
	)
	response.raise_for_status()

	if self.is_captcha_page(response.text):
	print("CAPTCHA detected. Stopping scraping.")
	return all_articles

	articles = self.extract_articles(response.text)
	if not articles:
	empty_page_count += 1
	print(f"No articles found on page {page + 1}. Empty count: {empty_page_count}")
	if empty_page_count >= 2: # Stop if two consecutive pages are empty
	print("No more articles found. Stopping.")
	return all_articles
	else:
	empty_page_count = 0 # Reset if we find articles

	all_articles.extend(articles)
	print(f"Page {page + 1}: Added {len(articles)} articles")
	break

	except requests.exceptions.RequestException as e:
	retries += 1
	print(f"Request failed (attempt {retries}/{self.max_retries}): {e}")
	if retries < self.max_retries:
	time.sleep(2**retries)
	else:
	print("Max retries reached. Stopping.")
	return all_articles

	return all_articles[:self.max_articles]


	if __name__ == "__main__":
	scrapper = GoogleBussinessNews(50)
	res = scrapper.scrape("reliance industry", datetime(2025,1,1), datetime(2025,2,1))
	print(res)