使用Python进行网络爬虫开发：从入门到实践

今天 3阅读

在大数据时代，网络爬虫（Web Scraper）已成为获取互联网数据的重要工具。无论是做市场分析、舆情监控，还是构建训练模型的数据集，爬虫技术都扮演着关键角色。本文将介绍如何使用 Python 构建一个简单的网络爬虫，并结合实际案例展示其应用。

什么是网络爬虫？

网络爬虫是一种自动抓取网页内容的程序，它通过模拟浏览器行为访问目标网站，解析 HTML 或 JSON 数据，并提取所需信息。Python 提供了丰富的库支持，如 requests、BeautifulSoup、lxml 和 Scrapy 等，使开发者能够高效地完成爬虫任务。

准备工作

在开始编写爬虫之前，我们需要安装一些必要的库：

pip install requests beautifulsoup4 lxml

requests：用于发送 HTTP 请求。beautifulsoup4：用于解析 HTML 文档。lxml：提供更快的 XML/HTML 解析能力。

⚠️ 注意：在进行网页抓取前，请确保遵守目标网站的 robots.txt 文件和相关法律法规，尊重网站的爬取政策，避免对服务器造成过大压力。

实战：爬取豆瓣电影 Top250 的标题与评分

我们将以豆瓣电影 Top250 页面为例，爬取每部电影的名称和评分。

1. 分析网页结构

打开 https://movie.douban.com/top250，使用浏览器开发者工具（F12），我们可以发现电影名称位于 <span class="title"> 标签中，评分位于 <span class="rating_num"> 标签中。

此外，该页面是分页的，每页显示 25 条数据，URL 中的 start 参数表示起始位置，例如：

第一页：?start=0第二页：?start=25第三页：?start=50...

因此，我们可以通过循环构造 URL 并依次爬取所有页面。

2. 编写爬虫代码

import requestsfrom bs4 import BeautifulSoupimport timeheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0 Safari/537.36'}def fetch_page(url):    response = requests.get(url, headers=headers)    if response.status_code == 200:        return response.text    else:        print(f"请求失败，状态码：{response.status_code}")        return Nonedef parse_html(html):    soup = BeautifulSoup(html, 'lxml')    items = soup.find_all('div', class_='item')    movies = []    for item in items:        title = item.find('span', class_='title').text        rating = item.find('span', class_='rating_num').text.strip()        movies.append({'title': title, 'rating': rating})    return moviesdef main():    base_url = "https://movie.douban.com/top250?start="    all_movies = []    for i in range(0, 250, 25):        url = base_url + str(i)        print(f"正在爬取第 {i//25 + 1} 页：{url}")        html = fetch_page(url)        if html:            movies = parse_html(html)            all_movies.extend(movies)        # 避免请求过快，增加延迟        time.sleep(1)    # 输出结果    for idx, movie in enumerate(all_movies, start=1):        print(f"{idx}. {movie['title']} - 评分：{movie['rating']}")if __name__ == '__main__':    main()

3. 代码说明

fetch_page(url)：发送 GET 请求并返回响应文本。parse_html(html)：使用 BeautifulSoup 解析 HTML 内容，提取电影名称和评分。main()：主函数，循环爬取每一页的内容，并打印最终结果。

优化与进阶

1. 设置 User-Agent

为了避免被网站识别为爬虫，我们设置了 User-Agent 模拟浏览器访问。

2. 增加异常处理

在实际部署中，建议添加更多异常处理逻辑，例如：

超时重试机制IP 代理轮换失败日志记录

3. 使用 Scrapy 框架

对于更复杂的项目，推荐使用 Scrapy 框架。它提供了完整的爬虫解决方案，包括请求调度、中间件、Item Pipeline 等功能，适用于大型爬虫项目。

4. 存储数据

目前我们只是将数据打印出来，实际项目中可以将数据保存为文件或数据库，例如：

CSV 文件：pandas.DataFrame.to_csv()JSON 文件：json.dump()MySQL / MongoDB：使用对应的数据库驱动存储

示例：将数据保存为 CSV 文件

import pandas as pddf = pd.DataFrame(all_movies)df.to_csv("douban_top250.csv", index=False, encoding='utf-8-sig')print("数据已保存至 douban_top250.csv")

总结

本文介绍了使用 Python 编写网络爬虫的基本流程，并通过爬取豆瓣电影 Top250 的实例演示了整个过程。虽然只是一个简单的例子，但已经涵盖了爬虫开发中的核心步骤：发送请求、解析 HTML、提取数据、保存结果。

网络爬虫是一项强大而灵活的技术，同时也需要谨慎使用。希望本文能帮助你快速入门爬虫开发，并在实际项目中加以应用。

参考资料：

Requests 官方文档 BeautifulSoup 官方文档 Scrapy 官方文档

如果你有进一步的需求，比如使用代理、反爬策略应对、或者分布式爬虫等内容，也欢迎继续提问！

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python进行网络爬虫开发：从入门到实践

什么是网络爬虫？

准备工作

实战：爬取豆瓣电影 Top250 的标题与评分

1. 分析网页结构

2. 编写爬虫代码

3. 代码说明

优化与进阶

1. 设置 User-Agent

2. 增加异常处理

3. 使用 Scrapy 框架

4. 存储数据

总结

相关阅读

使用 Python 构建一个简易的 Web 爬虫

使用Python实现一个简单的神经网络

使用Python进行数据可视化：从入门到实战

使用Python实现简单的图像分类器

目录[+]

微信号复制成功