使用Python构建一个简单的Web爬虫

06-24 48阅读

在当今数据驱动的世界中，网络爬虫（Web Crawler）或网页抓取器（Web Scraper）是获取和分析数据的重要工具。本文将介绍如何使用 Python 构建一个简单的 Web 爬虫，并展示完整的代码实现。

我们将使用以下技术：

requests：用于发送 HTTP 请求并获取网页内容。BeautifulSoup：用于解析 HTML 并提取所需信息。csv 模块：将抓取的数据保存为 CSV 文件。

项目目标

我们的目标是创建一个简单的爬虫，它可以从 https://books.toscrape.com/ 抓取书籍的标题、价格和评分信息，并将其保存到本地的 CSV 文件中。

注意：此网站专为测试爬虫而设计，不涉及真实用户隐私，适合练习使用。

安装依赖

首先确保你已经安装了必要的库。可以使用 pip 安装它们：

pip install requests beautifulsoup4

步骤一：发送请求并获取网页内容

我们首先使用 requests 库向目标网址发送 GET 请求，并检查响应状态码是否为 200（表示成功）。

import requestsurl = "https://books.toscrape.com/"response = requests.get(url)if response.status_code == 200:    print("页面加载成功！")    html_content = response.textelse:    print(f"请求失败，状态码：{response.status_code}")

步骤二：解析 HTML 内容并提取数据

接下来，我们使用 BeautifulSoup 解析 HTML 文档，并提取每本书的信息。根据网页结构，我们可以找到所有包含书籍信息的 <article> 标签。

from bs4 import BeautifulSoupsoup = BeautifulSoup(html_content, 'html.parser')books = []for article in soup.find_all('article', class_='product_pod'):    title = article.h3.a['title']    price = article.find('p', class_='price_color').text    rating_class = article.p['class'][1]  # 获取评分类名，如: Three    rating = rating_class if rating_class else '未知'    books.append({        'title': title,        'price': price,        'rating': rating    })print(f"共抓取 {len(books)} 本书籍信息。")

步骤三：保存数据到 CSV 文件

为了持久化存储这些数据，我们可以使用 Python 的内置模块 csv 将其写入 CSV 文件。

import csvcsv_file = 'books_data.csv'with open(csv_file, mode='w', newline='', encoding='utf-8') as file:    writer = csv.DictWriter(file, fieldnames=['title', 'price', 'rating'])    writer.writeheader()    writer.writerows(books)print(f"数据已成功保存至 {csv_file}")

整合完整代码

下面是整合后的完整代码：

import requestsfrom bs4 import BeautifulSoupimport csvdef scrape_books():    url = "https://books.toscrape.com/"    response = requests.get(url)    if response.status_code != 200:        print(f"请求失败，状态码：{response.status_code}")        return    html_content = response.text    soup = BeautifulSoup(html_content, 'html.parser')    books = []    for article in soup.find_all('article', class_='product_pod'):        title = article.h3.a['title']        price = article.find('p', class_='price_color').text        rating_class = article.p['class'][1]        rating = rating_class if rating_class else '未知'        books.append({            'title': title,            'price': price,            'rating': rating        })    print(f"共抓取 {len(books)} 本书籍信息。")    csv_file = 'books_data.csv'    with open(csv_file, mode='w', newline='', encoding='utf-8') as file:        writer = csv.DictWriter(file, fieldnames=['title', 'price', 'rating'])        writer.writeheader()        writer.writerows(books)    print(f"数据已成功保存至 {csv_file}")if __name__ == "__main__":    scrape_books()

进阶建议

虽然这个爬虫已经能够完成基本任务，但你还可以进行以下改进：

分页抓取：当前只抓取首页的内容，可以通过识别“下一页”按钮链接来遍历所有页面。异常处理：添加 try-except 块以增强程序的健壮性。多线程/异步抓取：使用 concurrent.futures 或 aiohttp 提高抓取效率。设置 User-Agent：模拟浏览器访问，防止被反爬机制拦截。使用数据库存储：将数据存入 SQLite、MySQL 或 MongoDB 中，便于后续查询和分析。

遵守法律与道德规范

在编写和运行网络爬虫时，请务必遵守以下原则：

尊重 robots.txt：查看目标网站的 robots.txt 文件，了解哪些页面允许爬取。限制请求频率：避免对服务器造成过大压力，合理设置延迟。不要抓取受保护内容：例如登录后可见的内容或个人隐私信息。

通过本文的学习，我们使用 Python 构建了一个简单的 Web 爬虫，能够从指定网站抓取书籍信息并保存为 CSV 文件。尽管功能简单，但它展示了网络爬虫的基本原理和流程。

随着你对 Python 和网络协议的深入理解，你可以开发更复杂、高效、智能的爬虫系统，用于数据分析、市场调研、自动化监控等多个领域。

希望这篇文章对你有所帮助！如果你有任何问题或想要进一步的功能扩展，请随时留言。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python构建一个简单的Web爬虫

项目目标

安装依赖

步骤一：发送请求并获取网页内容

步骤二：解析 HTML 内容并提取数据

步骤三：保存数据到 CSV 文件

整合完整代码

进阶建议

遵守法律与道德规范

相关阅读

DeepSeek模型热迁移：Ciuic云「不停机换卡」技术解析

避开天价算力坑：用Ciuic竞价实例训练DeepSeek省6成成本

亚马逊多店铺运营防封指南：Ciuic美国住宅IP的技术解析与最佳实践

金融风控实战：DeepSeek+Ciuic安全区合规部署指南

目录[+]

微信号复制成功