使用Python进行网络爬虫开发：从入门到实践

昨天 2阅读

随着互联网的发展，数据变得越来越重要。为了获取这些数据，网络爬虫（Web Crawler）成为了一项非常实用的技术。本文将介绍如何使用 Python 编写一个基本的网络爬虫程序，并展示其在实际场景中的应用。

什么是网络爬虫？

网络爬虫是一种自动抓取网页内容的程序。它通过模拟浏览器行为访问网站，提取所需的数据，并将其存储为结构化格式（如 CSV、JSON 或数据库）。网络爬虫广泛应用于搜索引擎、数据分析、价格监控、舆情分析等领域。

Python 网络爬虫常用库简介

Python 提供了多个用于网络爬虫开发的第三方库：

requests：用于发送 HTTP 请求，获取网页内容。BeautifulSoup：用于解析 HTML 和 XML 文档，提取信息。lxml：一种高效的 XML 和 HTML 解析库。Scrapy：功能强大的爬虫框架，适合构建大规模爬虫项目。Selenium：模拟浏览器操作，适用于动态加载页面。

本文将以 requests 和 BeautifulSoup 为例，演示如何编写一个简单的爬虫程序。

实战：爬取豆瓣电影 Top250 数据

我们以豆瓣电影 Top250 页面为目标，爬取每部电影的名称、评分和链接，并将结果保存为 CSV 文件。

1. 分析目标网站结构

打开 https://movie.douban.com/top250，我们可以看到这是一个分页显示的榜单。每一页有 25 部电影，共 10 页。

查看其中一部电影的 HTML 结构，发现电影标题位于 <span class="title"> 标签中，评分在 <span class="rating_num"> 中，链接在 <a> 标签的 href 属性中。

2. 安装依赖库

pip install requests beautifulsoup4 lxml

3. 编写爬虫代码

import requestsfrom bs4 import BeautifulSoupimport csvimport timeheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0 Safari/537.36'}def fetch_page(url):    response = requests.get(url, headers=headers)    if response.status_code == 200:        return response.text    else:        print(f"请求失败，状态码：{response.status_code}")        return Nonedef parse_html(html):    soup = BeautifulSoup(html, 'lxml')    items = soup.find_all('div', class_='item')    movies = []    for item in items:        title = item.find('span', class_='title').text        rating = item.find('span', class_='rating_num').text        link = item.find('a')['href']        movies.append({            'title': title,            'rating': rating,            'link': link        })    return moviesdef save_to_csv(data, filename='douban_top250.csv'):    with open(filename, mode='w', newline='', encoding='utf-8') as f:        writer = csv.DictWriter(f, fieldnames=['title', 'rating', 'link'])        writer.writeheader()        writer.writerows(data)def main():    base_url = "https://movie.douban.com/top250?start="    all_movies = []    for i in range(0, 250, 25):        url = base_url + str(i)        print(f"正在爬取第 {i//25 + 1} 页：{url}")        html = fetch_page(url)        if html:            movies = parse_html(html)            all_movies.extend(movies)            time.sleep(2)  # 增加延时避免对服务器造成压力    save_to_csv(all_movies)    print(f"已成功爬取 {len(all_movies)} 部电影信息，并保存至 douban_top250.csv")if __name__ == '__main__':    main()

4. 代码说明

fetch_page(url)：使用 requests 发送 GET 请求，返回网页 HTML 内容。parse_html(html)：使用 BeautifulSoup 解析 HTML，提取电影信息。save_to_csv(data)：将数据保存为 CSV 文件。main()：主函数控制流程，循环爬取所有页面。

5. 运行结果

运行程序后，将在当前目录下生成一个名为 douban_top250.csv 的文件，内容如下：

title	rating	link
肖申克的救赎	9.7	https://movie.douban.com/subject/1292052/
...	...	...

注意事项与反爬机制应对

在实际爬虫开发过程中，可能会遇到以下问题：

IP 封锁：频繁访问可能导致 IP 被封禁。解决办法：

添加随机延时；使用代理 IP；设置请求头模拟浏览器行为。

验证码验证：部分网站会弹出验证码。可以使用 Selenium 模拟人工操作或使用第三方打码平台。

动态加载内容：如果页面由 JavaScript 动态渲染，应使用 Selenium 或 Playwright 替代 requests。

Robots 协议：遵守目标网站的 robots.txt 文件规定，合法爬取。

扩展与进阶

使用 Scrapy 构建项目级爬虫

Scrapy 是一个完整的爬虫框架，支持异步请求、中间件、管道等功能，适合大型项目。

数据清洗与分析

使用 Pandas 对爬取的数据进行清洗、统计和可视化。

部署定时任务

可结合 Linux cron 或 Windows Task Scheduler 实现定期自动爬取更新数据。

分布式爬虫

利用 Scrapy-Redis 实现多节点协同工作，提升爬取效率。

总结

本文介绍了网络爬虫的基本概念、Python 常用工具，并通过一个完整的实例展示了如何爬取豆瓣电影 Top250 的数据。虽然只是一个简单的例子，但它涵盖了爬虫开发的核心流程：发送请求、解析响应、数据持久化。同时我们也讨论了爬虫过程中的常见问题及应对策略。

网络爬虫是一项强大而灵活的技术，掌握它可以让你轻松获取海量互联网数据，为数据分析、人工智能等方向提供坚实的基础。

参考文献：

Requests 官方文档 BeautifulSoup 官方文档豆瓣电影 Top250 页面

如果你对爬虫感兴趣，建议继续学习 Scrapy、Selenium 等高级工具，探索更复杂的应用场景。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python进行网络爬虫开发：从入门到实践

什么是网络爬虫？

Python 网络爬虫常用库简介

实战：爬取豆瓣电影 Top250 数据

1. 分析目标网站结构

2. 安装依赖库

3. 编写爬虫代码

4. 代码说明

5. 运行结果

注意事项与反爬机制应对

扩展与进阶

总结

相关阅读

!!!!

使用 Python 构建一个简单的 Web 应用程序

使用Python进行数据分析：从入门到实践

使用Python实现一个简单的Web爬虫

目录[+]

微信号复制成功