使用Python进行Web数据抓取：从零开始的技术实践

今天 3阅读

在当今大数据时代，网络上的信息量极其庞大。如何高效地获取并处理这些数据成为了一项重要的技能。网络爬虫（Web Scraping） 是一种从网页中提取结构化数据的技术，在数据分析、市场研究、金融监控等领域有广泛应用。

本文将介绍如何使用 Python 进行基础的 Web 数据抓取，并结合一个实际案例，展示如何从网页中提取新闻标题和链接，并保存为 CSV 文件。我们将使用 requests 和 BeautifulSoup 两个库来完成这项任务。

环境准备与依赖安装

首先，确保你的环境中已经安装了 Python。推荐使用 Python 3.8 或更高版本。我们还需要安装以下库：

requests：用于发送 HTTP 请求。beautifulsoup4：用于解析 HTML 页面。pandas：用于数据整理和导出。

你可以通过以下命令安装这些库：

pip install requests beautifulsoup4 pandas

基本概念简介

1. Requests 简介

requests 是一个非常流行的 Python HTTP 客户端库，可以方便地向目标网站发送请求并获取响应内容。

2. BeautifulSoup 简介

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的解析库，它提供简单的 API 来定位页面中的元素。

实战项目：抓取新闻网站的标题与链接

我们将以 https://example-news-site.com（假设网站）为例，演示如何抓取新闻列表页的标题和链接。

注意：在实际操作中，请确保你遵守目标网站的 robots.txt 规则和相关法律法规，避免对服务器造成过大压力或侵犯隐私。

第一步：发送请求获取页面内容

import requestsurl = 'https://example-news-site.com/latest'headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0 Safari/537.36'}response = requests.get(url, headers=headers)if response.status_code == 200:    html_content = response.textelse:    print(f"Failed to retrieve page. Status code: {response.status_code}")

这里我们使用 requests.get() 向目标 URL 发送 GET 请求，并设置了一个 User-Agent 头部，模拟浏览器访问，防止被网站屏蔽。

第二步：解析 HTML 内容

接下来，我们使用 BeautifulSoup 解析 HTML 文本，并提取新闻标题和链接。

from bs4 import BeautifulSoupsoup = BeautifulSoup(html_content, 'html.parser')# 假设新闻标题都在 <h3 class="news-title"> 标签内，链接在 <a> 标签的 href 属性中news_items = soup.find_all('div', class_='news-item')data = []for item in news_items:    title_tag = item.find('h3', class_='news-title')    link_tag = item.find('a')    if title_tag and link_tag:        title = title_tag.get_text(strip=True)        link = link_tag['href']        full_link = f"https://example-news-site.com{link}"  # 拼接完整链接        data.append({            'title': title,            'link': full_link        })print(data[:5])  # 显示前5条结果

这段代码中，我们查找所有包含新闻信息的 <div> 元素，然后从中提取标题和链接。最终将结果存储在一个字典列表中。

第三步：保存数据到 CSV 文件

最后，我们将抓取的数据保存为 CSV 文件，便于后续分析或导入数据库。

import pandas as pddf = pd.DataFrame(data)df.to_csv('news_data.csv', index=False, encoding='utf-8-sig')print("数据已成功保存为 news_data.csv")

使用 pandas 的 DataFrame 可以轻松地将数据结构转换为表格形式，并调用 .to_csv() 方法将其写入文件。

优化与扩展建议

虽然上述程序已经可以完成基本的抓取任务，但在实际应用中可能还需要考虑以下几个方面：

1. 异常处理

添加超时机制：requests.get(timeout=10)捕获连接异常：try-except 结构对缺失字段进行默认值处理

2. 分页抓取

如果目标网站有多页新闻，可以通过循环遍历不同页码来实现全量抓取：

for page in range(1, 6):  # 抓取前5页    url = f'https://example-news-site.com/latest?page={page}'    # 发起请求并解析

3. 使用代理和请求头池

为了避免 IP 被封禁，可以使用代理 IP 池和随机 User-Agent：

import randomuser_agents = [    'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...',    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...',    # 更多 User-Agent]headers = {    'User-Agent': random.choice(user_agents)}

4. 使用 Selenium 处理 JavaScript 渲染页面

如果目标网站是动态加载的内容（如使用 JavaScript），可以使用 Selenium 或 Playwright 替代 requests。

总结

通过本文的学习，我们掌握了使用 Python 编写简单 Web 爬虫的基本流程：

使用 requests 发送请求；使用 BeautifulSoup 解析 HTML；提取所需数据；使用 pandas 保存为 CSV 文件。

这只是一个起点，网络爬虫技术还有很多进阶内容，比如反爬策略应对、分布式爬虫、数据清洗等。希望你能继续深入学习，探索更多可能性！

附录：完整代码清单

import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport random# 随机 User-Agent 列表user_agents = [    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0 Safari/537.36',    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Safari/605.1.15',    'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36']headers = {    'User-Agent': random.choice(user_agents)}url = 'https://example-news-site.com/latest'response = requests.get(url, headers=headers, timeout=10)if response.status_code == 200:    html_content = response.textelse:    print(f"Failed to retrieve page. Status code: {response.status_code}")    exit()soup = BeautifulSoup(html_content, 'html.parser')news_items = soup.find_all('div', class_='news-item')data = []for item in news_items:    title_tag = item.find('h3', class_='news-title')    link_tag = item.find('a')    if title_tag and link_tag:        title = title_tag.get_text(strip=True)        link = link_tag['href']        full_link = f"https://example-news-site.com{link}"        data.append({            'title': title,            'link': full_link        })df = pd.DataFrame(data)df.to_csv('news_data.csv', index=False, encoding='utf-8-sig')print("数据已成功保存为 news_data.csv")

如果你对爬虫技术感兴趣，欢迎继续关注我后续的文章，我们将探讨更高级的主题，如 Scrapy 框架、分布式爬虫、数据持久化等内容。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python进行Web数据抓取：从零开始的技术实践

环境准备与依赖安装

基本概念简介

1. Requests 简介

2. BeautifulSoup 简介

实战项目：抓取新闻网站的标题与链接

第一步：发送请求获取页面内容

第二步：解析 HTML 内容

第三步：保存数据到 CSV 文件

优化与扩展建议

1. 异常处理

2. 分页抓取

3. 使用代理和请求头池

4. 使用 Selenium 处理 JavaScript 渲染页面

总结

附录：完整代码清单

相关阅读

使用Python进行数据分析：从入门到实战

基于Python的图像分类模型训练与部署实践

使用Python实现一个简单的图像分类器

使用Python进行数据可视化：从基础到实践

目录[+]

微信号复制成功