{
"nbformat": 4,
"nbformat_minor": 0,
"metadata": {
"colab": {
"provenance": [],
"authorship_tag": "ABX9TyNDvdp8livTF70SepgodBUC",
"include_colab_link": true
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3"
},
"language_info": {
"name": "python"
}
},
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "view-in-github",
"colab_type": "text"
},
"source": [
""
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "nDSUHVi0rODZ",
"outputId": "96d8537a-fadd-40cb-cad7-3c8ed194f9eb"
},
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\n",
"Collecting bs4\n",
" Downloading bs4-0.0.1.tar.gz (1.1 kB)\n",
" Preparing metadata (setup.py) ... \u001b[?25l\u001b[?25hdone\n",
"Requirement already satisfied: beautifulsoup4 in /usr/local/lib/python3.10/dist-packages (from bs4) (4.11.2)\n",
"Requirement already satisfied: soupsieve>1.2 in /usr/local/lib/python3.10/dist-packages (from beautifulsoup4->bs4) (2.4.1)\n",
"Building wheels for collected packages: bs4\n",
" Building wheel for bs4 (setup.py) ... \u001b[?25l\u001b[?25hdone\n",
" Created wheel for bs4: filename=bs4-0.0.1-py3-none-any.whl size=1257 sha256=5ead9167bf44bebf34f52f8d9953fe37399437d848f5f4943d4acc8f6aa8d708\n",
" Stored in directory: /root/.cache/pip/wheels/25/42/45/b773edc52acb16cd2db4cf1a0b47117e2f69bb4eb300ed0e70\n",
"Successfully built bs4\n",
"Installing collected packages: bs4\n",
"Successfully installed bs4-0.0.1\n"
]
}
],
"source": [
"!pip install bs4"
]
},
{
"cell_type": "code",
"source": [
"import requests\n",
"from bs4 import BeautifulSoup"
],
"metadata": {
"id": "Holjaclxrhcs"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [
"# news = []\n",
"\n",
"# # for i in range(1, 5):\n",
"# url = \"https://www.onlinekhabar.com/content/news/page/2\"\n",
"\n",
"# response = requests.get(url)\n",
"# response = response.content\n",
"# soup = BeautifulSoup(response, 'html.parser')\n",
"# for titles in soup.findAll('h2'):\n",
"# title = titles.text\n",
"# print(title)\n",
"# # titles = grid.find('div', class_='ok-news-post')\n",
"# # for title in titles:\n",
"# # title = soup.find('h2')\n",
"# # title = title.text.strip()\n",
"# # title = title.replace(u'\\xa0', u' ')\n",
"\n",
"# # print(title)\n",
"\n",
"# # link = h4.find('a', href=True)\n",
"# # link = link.get('href')\n",
"# # # print(link)\n",
"# # link_response = requests.get(link)\n",
"# # link_response = link_response.content\n",
"# # link_soup = BeautifulSoup(link_response, 'html.parser')\n",
"\n",
"# # article = link_soup.find('div', class_='ok18-single-post-content-wrap').text\n",
"# # article = article.replace(u'\\xa0', u' ')\n",
"# # article = article.replace(u'\\n', u' ')\n",
"\n",
"# # # print('article:{}'.format(article))\n",
"\n",
"# # # h4 = h4.strip()\n",
"# # # title\n",
"# # news.append([link, title, article])\n"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "3kfVMU_Frstp",
"outputId": "bd612f0a-bc0f-4435-893d-62e49b86ae04"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"\n",
"ट्रेन्डिङ +\n",
"\n",
"\n",
"ताजा अपडेट +\n",
"\n",
"काँक्राका फाइदै-फाइदा, कुन समयमा खानु राम्रो ?\n",
"थाइराइडका बिरामीले के खाने, के नखाने ?\n",
"बच्चामा अन्धोपनको जोखिम बढाउने आरओपी समस्या के हो ?\n",
"फुङलिङमा सवारी दुर्घटनामा परी एक बालककाे मृत्यु\n",
"जोर्डनका युवराज र साउदी युवतीबीचको विवाह किन छ चर्चामा ?\n",
"स्मार्टफोनमा स्टोरेज सकिन थाल्यो ? यसो गर्नुस्\n",
"‘शून्यकाे मूल्य’लाई उत्तम-शान्ति पुरस्कार\n",
"‘स्टन्टबाजी जान्दिनँ, काम भइरहेको छ’\n",
"रातो मच्छिन्द्रनाथको रथ तान्न उर्लिएको भीड (तस्वीरहरू)\n",
"\n",
"समाचार \n",
"प्रचण्ड दिल्लीबाट फर्केपछि बेइजिङ भ्रमणको तयारी हुने\n",
"वीरेन्द्रनगरकी मेयर : हुटहुटी छ, तर परिणाम देखिएन\n",
"कक्षा १२ को ऐच्छिक नेपालीबाट भुपाल राईको कविता हटाउन दबाव\n",
"रुकुम पश्चिममा भएको जिप दुर्घटनामा आमाछोरासहित ५ जनाको मृत्यु\n",
"भोटो जात्राले चिडियाखानामा एकै दिन १२ हजार अवलोकनकर्ता, शुल्क आधाभन्दा कम\n",
"नक्कली शरणार्थी मुद्दामा नेपाल राज्यकै परीक्षा\n",
"थाइराइडका बिरामीले के खाने, के नखाने ?\n",
"बागमतीका ३ हजार पुराना सार्वजनिक सवारी सडकबाट हट्दै\n",
"कर्णालीमा बजेटको प्राथमिकता र सिद्धान्त : हरेक वर्ष १० हजार रोजगारी सिर्जना (पूर्णपाठ)\n",
"वैदेशिक रोजगार मागपत्रको प्रमाणीकरण अब देशभित्रै गर्ने व्यवस्था हुँदै\n",
"बच्चामा अन्धोपनको जोखिम बढाउने आरओपी समस्या के हो ?\n",
"रास्वपा नेताहरु र चिनियाँ दूतावासको टोलीबीच भेटवार्ता\n",
"गणतन्त्रको विकल्प पश्चगमन हुन सक्दैन : सञ्चारमन्त्री शर्मा\n",
"पश्चिमी वायुको प्रभावले उपत्यकासहित देशभर वर्षा\n",
"‘हाम्रो व्यक्तित्वमा आँच पुर्याइयो’\n",
"ट्याटु पूरै हटाउन सकिन्छ ?\n",
"कोशीमा आन्दोलनरत पहिचान पक्षधरलाई वार्तामा बोलाउन कांग्रेसको माग \n",
"मधेश सरकारमा लोसपा पनि सहभागी, कुर्मी वनमन्त्री नियुक्त\n",
"तम्घास बजारको सडकमा पुनः कालोपत्रे काम सुरु\n",
"कोशीमा पहिचान पक्षधरले गरे विराटनगर केन्द्रित आन्दोलन घोषणा\n",
"प्रहरी कुनै षड्यन्त्रको शिकार भएको छैन : गृहमन्त्री श्रेष्ठ\n",
"ढोरपाटनका मेयरलाई एमालेले गर्यो प्रदेश कमिटीबाट निलम्बन\n",
"नक्कली भुटानी शरणार्थी प्रकरणमा निष्पक्ष अनुसन्धान गर्न युवा संघको माग\n",
"कोशी प्रदेशमा ९७ प्रतिशत घरपरिवारमा शौचालय\n",
"पानीका स्रोत सरसफाइ गरिने पर्व सिथि नखः\n",
"स्थानीय तहमा खटाइएका पर्यवेक्षकले एक वर्षदेखि पाएनन् पारिश्रमिक\n",
"दाङमा वृद्धालाई कुटपिट गरी लुटपाट\n",
"बालबच्चालाई किन धेरै रिस उठ्छ ?\n",
"‘ई-हाजिरी’ कि ‘नो हाजिरी’ !\n",
"जेठ १७ गते भारत भ्रमणमा जाने प्रधानमन्त्रीको तयारी\n",
"Posts navigation\n"
]
}
]
},
{
"cell_type": "code",
"source": [
"import pandas as pd\n",
"\n",
"df = pd.DataFrame(news, columns=['link','title','article'])\n",
"df"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 49
},
"id": "Hqx6ziKkr8C1",
"outputId": "75b24fc5-7e67-47f2-cb10-f43d31dc05d8"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"Empty DataFrame\n",
"Columns: [link, title, article]\n",
"Index: []"
],
"text/html": [
"\n",
"
\n", " | link | \n", "title | \n", "article | \n", "
---|
\n", " | link | \n", "title | \n", "article | \n", "
---|---|---|---|
0 | \n", "https://www.onlinekhabar.com/2023/05/1312396 | \n", "काँक्राका फाइदै-फाइदा, कुन समयमा खानु राम्रो ? | \n", "चर्को गर्मीमा काँक्रा खानुको मज्जा नै बेग्लै ... | \n", "
1 | \n", "https://www.onlinekhabar.com/2023/05/1312323 | \n", "थाइराइडका बिरामीले के खाने, के नखाने ? | \n", "काठमाडौं । शरीरलाई राम्रोसँग काम गर्न विभिन्न... | \n", "
2 | \n", "https://www.onlinekhabar.com/2023/05/1312266 | \n", "बच्चामा अन्धोपनको जोखिम बढाउने आरओपी समस्या के... | \n", "सामान्य बच्चाको तुलनामा समयअगावै जन्मिएका बच्... | \n", "
3 | \n", "https://www.onlinekhabar.com/2023/05/1312637 | \n", "फुङलिङमा सवारी दुर्घटनामा परी एक बालककाे मृत्यु | \n", "१२ जेठ, ताप्लेजुङ। स्कार्पियाे दुर्घटनामा बिह... | \n", "
4 | \n", "https://www.onlinekhabar.com/2023/05/1312564 | \n", "जोर्डनका युवराज र साउदी युवतीबीचको विवाह किन छ... | \n", "१२ जेठ, काठमाडौं । जोर्डनका युवराज हुसेन बिन ... | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "
5995 | \n", "https://www.onlinekhabar.com/2023/02/1269914 | \n", "ज्येष्ठ सदस्य जबरासहित ११ सांसदले बुझाएनन् सम्... | \n", "१५ फागुन, काठमाडौं । प्रतिनिधिसभाका ११ सदस्यल... | \n", "
5996 | \n", "https://www.onlinekhabar.com/2023/02/1269908 | \n", "गुल्मीमा बिभिन्न कार्यक्रम गरेर ४१ औं मगर दिवस... | \n", "१५ फागुन, गुल्मी । गुल्मी जिल्ला सदरमुकाम तम्... | \n", "
5997 | \n", "https://www.onlinekhabar.com/2023/02/1269895 | \n", "कास्कीमा ६ महिनामै बलात्कारका ३५ उजुरी | \n", "१५ फागुन, पोखरा । पोखराको लेकसाइड, शान्तिनगरब... | \n", "
5998 | \n", "https://www.onlinekhabar.com/2023/02/1269881 | \n", "प्रज्ञा प्रतिष्ठानका सदस्यले दोहोरो सुविधा नपाउने | \n", "१५ फागुन, काठमाडौं । नेपाल प्रज्ञा प्रतिष्ठान... | \n", "
5999 | \n", "https://www.onlinekhabar.com/2023/02/1269863 | \n", "सिसडोलमा फोहोर फाल्ने स्वास्थ्य संस्थालाई महा... | \n", "१५ फागुन, काठमाडौं । काठमाडौं महानगरपालिकाले ... | \n", "
6000 rows × 3 columns
\n", "\n", " | id | \n", "title | \n", "article | \n", "link | \n", "
---|---|---|---|---|
0 | \n", "0 | \n", "काँक्राका फाइदै-फाइदा, कुन समयमा खानु राम्रो ? | \n", "चर्को गर्मीमा काँक्रा खानुको मज्जा नै बेग्लै ... | \n", "https://www.onlinekhabar.com/2023/05/1312396 | \n", "
1 | \n", "1 | \n", "थाइराइडका बिरामीले के खाने, के नखाने ? | \n", "काठमाडौं । शरीरलाई राम्रोसँग काम गर्न विभिन्न... | \n", "https://www.onlinekhabar.com/2023/05/1312323 | \n", "
2 | \n", "2 | \n", "बच्चामा अन्धोपनको जोखिम बढाउने आरओपी समस्या के... | \n", "सामान्य बच्चाको तुलनामा समयअगावै जन्मिएका बच्... | \n", "https://www.onlinekhabar.com/2023/05/1312266 | \n", "
3 | \n", "3 | \n", "फुङलिङमा सवारी दुर्घटनामा परी एक बालककाे मृत्यु | \n", "१२ जेठ, ताप्लेजुङ। स्कार्पियाे दुर्घटनामा बिह... | \n", "https://www.onlinekhabar.com/2023/05/1312637 | \n", "
4 | \n", "4 | \n", "जोर्डनका युवराज र साउदी युवतीबीचको विवाह किन छ... | \n", "१२ जेठ, काठमाडौं । जोर्डनका युवराज हुसेन बिन ... | \n", "https://www.onlinekhabar.com/2023/05/1312564 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
117 | \n", "95 | \n", "भोलि काठमाडौं उपत्यकामा सार्वजनिक बिदा | \n", "१० जेठ, काठमाडौं । भोटो देखाउने जात्राको अवसर... | \n", "https://www.onlinekhabar.com/2023/05/1311800 | \n", "
118 | \n", "96 | \n", "ग्यास र बिजुली प्रयोगको शिक्षा विद्यालयकै पाठ्... | \n", "१० जेठ, काठमाडौं । नेपाली कांग्रेसका सांसद चन... | \n", "https://www.onlinekhabar.com/2023/05/1311778 | \n", "
119 | \n", "97 | \n", "गौतमबुद्ध विमानस्थलबाट लक्ष्यको १० प्रतिशत मात... | \n", "१० जेठ, काठमाडौं । नेपालको दोस्रो अन्तर्राष्ट... | \n", "https://www.onlinekhabar.com/2023/05/1311777 | \n", "
129 | \n", "98 | \n", "ज्ञानेन्द्र शाहीको प्रश्न : आईजीपीलाई निलम्बन ... | \n", "१० जेठ, काठमाडौं। राष्ट्रिय प्रजातन्त्र पार्ट... | \n", "https://www.onlinekhabar.com/2023/05/1311764 | \n", "
130 | \n", "99 | \n", "कसरी गर्ने एन्जाइटी नियन्त्रण ? यस्ता छन् ८ उपाय | \n", "हरेक व्यक्तिमा कुनै न कुनै तनाव त भइरहन्छ । त... | \n", "https://www.onlinekhabar.com/2023/05/1311635 | \n", "
100 rows × 4 columns
\n", "\n", " | id | \n", "title | \n", "article | \n", "link | \n", "
---|---|---|---|---|
0 | \n", "0 | \n", "काँक्राका फाइदै-फाइदा, कुन समयमा खानु राम्रो ? | \n", "चर्को गर्मीमा काँक्रा खानुको मज्जा नै बेग्लै ... | \n", "https://www.onlinekhabar.com/2023/05/1312396 | \n", "
1 | \n", "1 | \n", "थाइराइडका बिरामीले के खाने, के नखाने ? | \n", "काठमाडौं । शरीरलाई राम्रोसँग काम गर्न विभिन्न... | \n", "https://www.onlinekhabar.com/2023/05/1312323 | \n", "
2 | \n", "2 | \n", "बच्चामा अन्धोपनको जोखिम बढाउने आरओपी समस्या के... | \n", "सामान्य बच्चाको तुलनामा समयअगावै जन्मिएका बच्... | \n", "https://www.onlinekhabar.com/2023/05/1312266 | \n", "
3 | \n", "3 | \n", "फुङलिङमा सवारी दुर्घटनामा परी एक बालककाे मृत्यु | \n", "१२ जेठ, ताप्लेजुङ। स्कार्पियाे दुर्घटनामा बिह... | \n", "https://www.onlinekhabar.com/2023/05/1312637 | \n", "
4 | \n", "4 | \n", "जोर्डनका युवराज र साउदी युवतीबीचको विवाह किन छ... | \n", "१२ जेठ, काठमाडौं । जोर्डनका युवराज हुसेन बिन ... | \n", "https://www.onlinekhabar.com/2023/05/1312564 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
95 | \n", "95 | \n", "भोलि काठमाडौं उपत्यकामा सार्वजनिक बिदा | \n", "१० जेठ, काठमाडौं । भोटो देखाउने जात्राको अवसर... | \n", "https://www.onlinekhabar.com/2023/05/1311800 | \n", "
96 | \n", "96 | \n", "ग्यास र बिजुली प्रयोगको शिक्षा विद्यालयकै पाठ्... | \n", "१० जेठ, काठमाडौं । नेपाली कांग्रेसका सांसद चन... | \n", "https://www.onlinekhabar.com/2023/05/1311778 | \n", "
97 | \n", "97 | \n", "गौतमबुद्ध विमानस्थलबाट लक्ष्यको १० प्रतिशत मात... | \n", "१० जेठ, काठमाडौं । नेपालको दोस्रो अन्तर्राष्ट... | \n", "https://www.onlinekhabar.com/2023/05/1311777 | \n", "
98 | \n", "98 | \n", "ज्ञानेन्द्र शाहीको प्रश्न : आईजीपीलाई निलम्बन ... | \n", "१० जेठ, काठमाडौं। राष्ट्रिय प्रजातन्त्र पार्ट... | \n", "https://www.onlinekhabar.com/2023/05/1311764 | \n", "
99 | \n", "99 | \n", "कसरी गर्ने एन्जाइटी नियन्त्रण ? यस्ता छन् ८ उपाय | \n", "हरेक व्यक्तिमा कुनै न कुनै तनाव त भइरहन्छ । त... | \n", "https://www.onlinekhabar.com/2023/05/1311635 | \n", "
100 rows × 4 columns
\n", "