您的位置:首页 > 房产 > 家装 > 正能量网站入口不用下载_沧州网络_长沙网络推广软件_百度竞价账户

正能量网站入口不用下载_沧州网络_长沙网络推广软件_百度竞价账户

2024/12/24 8:08:04 来源:https://blog.csdn.net/2301_78198846/article/details/143506181  浏览:    关键词:正能量网站入口不用下载_沧州网络_长沙网络推广软件_百度竞价账户
正能量网站入口不用下载_沧州网络_长沙网络推广软件_百度竞价账户

引言

在这个信息爆炸的时代,获取并分析特定网站上的信息变得越来越重要。本文将通过一个实例来展示如何使用Python编写一个简单的网络爬虫,抓取某新闻网上的新闻信息,并对这些数据进行基本的统计分析。我们将使用urlliblxmlpandas以及matplotlib等库来完成这项任务。
目标网站

在这里插入图片描述

环境准备

在开始之前,请确保你的环境中已安装了以下Python库:

  • urllib
  • lxml
  • pandas
  • matplotlib
  • fake_useragent

可以通过pip命令来安装这些库,例如:

pip install lxml pandas matplotlib fake_useragent

代码详解

1. 导入必要的库

首先,我们需要导入所有需要用到的Python库。这里包括了用于网络请求的urllib,解析HTML的lxml,处理数据的pandas,以及用于绘制图表的matplotlib

import urllib.request
from urllib.parse import urlparse, urljoin
import pandas as pd
from fake_useragent import UserAgent
from lxml import etree
import re
import time
from datetime import datetime, timedelta
from matplotlib import pyplot as plt

2. 定义基础URL及标签页面

接下来定义我们要爬取的基础URL以及各个新闻标签对应的初始页面URL。这将帮助我们构建完整的新闻链接。

# 基础URL
base_url = 'https://news.tju.edu.cn'# 各个标签的初始URL
tags = {'全部': 'https://news.tju.edu.cn/xnxw1/qb/1146.htm','科研': 'https://news.tju.edu.cn/xnxw1/ky/124.htm','教学': 'https://news.tju.edu.cn/xnxw1/jx/97.htm','交流': 'https://news.tju.edu.cn/xnxw1/jl/165.htm','校友': 'https://news.tju.edu.cn/xnxw1/xy/36.htm','管理': 'https://news.tju.edu.cn/xnxw1/gl/292.htm','活动': 'https://news.tju.edu.cn/xnxw1/hd/401.htm','观点': 'https://news.tju.edu.cn/xnxw1/gd/15.htm','人物': 'https://news.tju.edu.cn/xnxw1/rw/10.htm','文化': 'https://news.tju.edu.cn/xnxw1/wh/3.htm'
}

3. 初始化存储列表

创建一个空列表all_news_data,用于存储所有抓取到的新闻数据。

# 存储所有新闻数据的列表
all_news_data = []

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com