使用Python实现一个简单的Web爬虫

今天 3阅读

在现代互联网应用中，数据的获取和处理变得越来越重要。Web 爬虫（Web Crawler）是一种自动抓取网页信息的技术，广泛应用于搜索引擎、数据分析、价格监控等领域。本文将介绍如何使用 Python 编写一个简单的 Web 爬虫，并通过代码示例展示其实现过程。

环境准备

在开始编写爬虫之前，我们需要安装一些必要的 Python 库：

requests：用于发送 HTTP 请求。BeautifulSoup：用于解析 HTML 页面。lxml：作为 BeautifulSoup 的解析器，速度更快。

你可以通过以下命令安装这些库：

pip install requests beautifulsoup4 lxml

基本原理

Web 爬虫的基本工作流程如下：

发送请求：向目标网站发送 HTTP 请求，获取页面内容。解析响应：从返回的 HTML 中提取所需的数据。存储数据：将提取到的数据保存到本地文件或数据库中。递归抓取：根据需要继续抓取链接页面。

下面我们将以爬取一个测试网站 https://books.toscrape.com/ 为例，演示如何实现一个书籍信息爬虫。

项目结构设计

我们的爬虫将完成以下功能：

抓取首页所有书籍的标题和价格；将数据保存为 CSV 文件；可扩展支持分页抓取。

代码实现

4.1 导入必要的模块

import requestsfrom bs4 import BeautifulSoupimport csvimport time

4.2 定义请求函数

def get_html(url):    headers = {        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0 Safari/537.36'    }    try:        response = requests.get(url, headers=headers)        response.raise_for_status()  # 如果状态码不是200，抛出异常        return response.text    except requests.RequestException as e:        print(f"请求失败: {e}")        return None

4.3 解析 HTML 并提取数据

def parse_books(html):    soup = BeautifulSoup(html, 'lxml')    books = []    for item in soup.select('.product_pod'):        title = item.select_one('h3 a')['title']        price = item.select_one('.price_color').text        books.append({            'title': title,            'price': price        })    return books

4.4 获取下一页链接

def get_next_page(html):    soup = BeautifulSoup(html, 'lxml')    next_link = soup.select_one('li.next > a')    if next_link:        return next_link['href']    else:        return None

4.5 数据保存到CSV文件

def save_to_csv(data, filename='books.csv'):    with open(filename, 'w', newline='', encoding='utf-8') as f:        writer = csv.DictWriter(f, fieldnames=['title', 'price'])        writer.writeheader()        writer.writerows(data)

4.6 主程序逻辑

def main():    base_url = 'https://books.toscrape.com/'    current_url = base_url    all_books = []    while current_url:        html = get_html(current_url)        if not html:            break        books = parse_books(html)        all_books.extend(books)        next_page = get_next_page(html)        if next_page:            current_url = base_url + next_page        else:            current_url = None        time.sleep(1)  # 避免请求过快，设置延时    save_to_csv(all_books)    print(f"成功抓取 {len(all_books)} 本书籍信息并保存至 books.csv")

4.7 运行主程序

if __name__ == '__main__':    main()

完整代码整合

以下是完整的爬虫代码：

import requestsfrom bs4 import BeautifulSoupimport csvimport timedef get_html(url):    headers = {        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0 Safari/537.36'    }    try:        response = requests.get(url, headers=headers)        response.raise_for_status()        return response.text    except requests.RequestException as e:        print(f"请求失败: {e}")        return Nonedef parse_books(html):    soup = BeautifulSoup(html, 'lxml')    books = []    for item in soup.select('.product_pod'):        title = item.select_one('h3 a')['title']        price = item.select_one('.price_color').text        books.append({            'title': title,            'price': price        })    return booksdef get_next_page(html):    soup = BeautifulSoup(html, 'lxml')    next_link = soup.select_one('li.next > a')    if next_link:        return next_link['href']    else:        return Nonedef save_to_csv(data, filename='books.csv'):    with open(filename, 'w', newline='', encoding='utf-8') as f:        writer = csv.DictWriter(f, fieldnames=['title', 'price'])        writer.writeheader()        writer.writerows(data)def main():    base_url = 'https://books.toscrape.com/'    current_url = base_url    all_books = []    while current_url:        html = get_html(current_url)        if not html:            break        books = parse_books(html)        all_books.extend(books)        next_page = get_next_page(html)        if next_page:            current_url = base_url + next_page        else:            current_url = None        time.sleep(1)    save_to_csv(all_books)    print(f"成功抓取 {len(all_books)} 本书籍信息并保存至 books.csv")if __name__ == '__main__':    main()

运行结果与分析

运行上述代码后，你会在当前目录下生成一个名为 books.csv 的文件，里面包含书籍的标题和价格信息。例如：

title	price
A Light in the Attic	£51.77
Seven Deadly Sins	£37.63
...	...

该爬虫可以轻松地进行扩展，比如添加对图片下载的支持、多线程并发抓取、使用代理服务器等。

注意事项与法律问题

虽然 Web 爬虫技术非常有用，但在实际使用中需要注意以下几点：

遵守 robots.txt：每个网站都有自己的 robots.txt 文件，规定了哪些页面允许爬取。避免频繁请求：合理设置请求间隔，避免对服务器造成过大压力。尊重版权：不要抓取受版权保护的内容。用户隐私：不抓取涉及用户隐私的信息。合法性：确保你的行为符合当地法律法规。

本文介绍了使用 Python 编写一个简单 Web 爬虫的过程，涵盖了从请求、解析到数据存储的全流程。通过这个例子，读者可以掌握网络爬虫的基本思路和技术要点。当然，实际项目中可能还需要考虑更多复杂因素，如动态渲染页面（使用 Selenium）、反爬机制处理等。

希望本文能帮助你入门 Web 爬虫开发，并激发你对数据采集与处理的兴趣。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python实现一个简单的Web爬虫

环境准备

基本原理

项目结构设计

代码实现

4.1 导入必要的模块

4.2 定义请求函数

4.3 解析 HTML 并提取数据

4.4 获取下一页链接

4.5 数据保存到CSV文件

4.6 主程序逻辑

4.7 运行主程序

完整代码整合

运行结果与分析

注意事项与法律问题

相关阅读

使用Python构建一个简单的RESTful API

使用Python实现一个简单的神经网络分类器

使用 Python 实现一个简单的文本分类器

基于Python的Web爬虫开发与实战

目录[+]

微信号复制成功