使用Python进行Web数据抓取：从零开始的技术实践

06-24 54阅读

在当今大数据时代，网络上蕴含着丰富的信息资源。如何高效地获取这些信息成为许多开发者和数据分析师关注的重点。本文将介绍如何使用Python进行Web数据抓取（Web Scraping），并通过一个实际案例展示整个流程。我们将使用requests库来发起HTTP请求，使用BeautifulSoup解析HTML内容，并使用pandas存储抓取的数据。

什么是Web数据抓取？

Web数据抓取是一种自动提取网页中结构化或非结构化数据的技术。它广泛应用于价格监控、市场分析、舆情监测、科研数据采集等多个领域。Python由于其简洁的语法和强大的第三方库支持，成为Web数据抓取的首选语言之一。

准备工作

安装所需库

在开始之前，请确保你已经安装了以下Python库：

pip install requests beautifulsoup4 pandas lxml

requests: 发起HTTP请求，获取网页内容。beautifulsoup4: 解析HTML文档，提取所需数据。pandas: 处理和保存数据为CSV或Excel格式。lxml: 作为BeautifulSoup的解析器，速度快于默认的html.parser。

实战案例：抓取豆瓣电影Top250榜单

我们将以豆瓣电影Top250页面为例，抓取每部电影的名称、评分、导演、年份、地区、类型等信息。

步骤1：分析目标网页结构

访问地址：https://movie.douban.com/top250

打开浏览器开发者工具（F12），查看页面HTML结构。我们发现每部电影的信息被包裹在<div class="item">标签中，电影名称在<span class="title">，评分在<span class="rating_num">等。

步骤2：编写爬虫代码

以下是完整的Python代码实现：

import requestsfrom bs4 import BeautifulSoupimport pandas as pd# 请求头，模拟浏览器访问headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36'}def fetch_page(url):    """获取网页HTML内容"""    response = requests.get(url, headers=headers)    if response.status_code == 200:        return response.text    else:        print(f"Failed to fetch page: {url}")        return Nonedef parse_html(html):    """解析HTML内容，提取电影信息"""    soup = BeautifulSoup(html, 'lxml')    movies = []    for item in soup.find_all('div', class_='item'):        rank = item.find('em').text.strip()        title = item.find('span', class_='title').text.strip()        rating_num = item.find('span', class_='rating_num').text.strip()        # 导演和年份信息在同一段落中        bd = item.find('div', class_='bd').p.text.strip().split('\n')[0]        director_info = bd.split('导演: ')[1].split('  主演:')        director = director_info[0]        # 年份、地区、类型        pub_info = item.find('div', class_='bd').p.text.strip().split('\n')[-1].strip().split('/')        year = pub_info[0].strip()        region = pub_info[1].strip()        genre = pub_info[2].strip()        movies.append({            '排名': rank,            '片名': title,            '评分': rating_num,            '导演': director,            '年份': year,            '地区': region,            '类型': genre        })    return moviesdef save_to_csv(data, filename='douban_top250.csv'):    """将数据保存为CSV文件"""    df = pd.DataFrame(data)    df.to_csv(filename, index=False, encoding='utf-8-sig')    print(f"数据已保存至 {filename}")def main():    base_url = "https://movie.douban.com/top250"    all_movies = []    # 豆瓣Top250共有10页，每页25条    for i in range(0, 250, 25):        url = f"{base_url}?start={i}"        print(f"正在抓取第{i//25 + 1}页：{url}")        html = fetch_page(url)        if html:            movies = parse_html(html)            all_movies.extend(movies)    save_to_csv(all_movies)if __name__ == '__main__':    main()

步骤3：运行代码并查看结果

运行上述代码后，会在当前目录下生成一个名为douban_top250.csv的文件，里面包含了豆瓣电影Top250的所有电影信息。

输出示例：

排名	片名	评分	导演	年份	地区	类型
1	肖申克的救赎	9.7	弗兰克·德拉邦特	1994	美国	剧情 / 犯罪
2	霸王别姬	9.6	陈凯歌	1993	中国大陆 / 香港	剧情 / 爱情 / 同性

技术要点解析

1. HTTP请求与响应处理

使用requests.get()发起GET请求，通过设置headers中的User-Agent字段，防止网站识别出爬虫行为。返回状态码200表示请求成功。

2. HTML解析技巧

使用BeautifulSoup结合lxml解析器可以高效提取DOM节点。例如：

soup.find_all('div', class_='item')  # 查找所有电影项item.find('span', class_='title')    # 提取电影名称

注意：class_参数用于匹配类名，因为class是Python关键字。

3. 数据清洗与结构化

原始HTML中包含大量换行符和空格，需要使用.strip()方法去除多余空白。对于复杂结构，如导演和演员信息混杂，可使用字符串分割处理。

4. 分页抓取逻辑

豆瓣Top250共分10页，每页25条记录。通过构造URL参数start=0, start=25... 实现分页抓取。

5. 数据持久化

使用pandas.DataFrame将列表转换为表格形式，并调用to_csv()保存为CSV文件。使用utf-8-sig编码避免中文乱码。

反爬策略应对建议

虽然本例中豆瓣并未对爬虫做严格限制，但在实际项目中可能会遇到如下反爬机制：

IP封禁：使用代理IP池轮换访问。验证码验证：引入Selenium模拟浏览器操作。JavaScript渲染：使用Selenium或Playwright加载动态内容。请求频率检测：设置合理延时（如time.sleep(1)）。

总结

本文通过一个完整的Web数据抓取实例，介绍了如何使用Python进行网页内容提取、解析与存储。核心步骤包括：

发起HTTP请求获取网页内容；使用BeautifulSoup解析HTML；清洗和结构化数据；分页处理；使用Pandas保存数据。

掌握这些技能后，你可以将其应用到新闻采集、电商比价、社交网络分析等多个场景中。当然，在进行Web抓取时，请务必遵守目标网站的Robots协议，尊重网站的爬虫政策，做到合法合规。

如果你对更高级的爬虫技术感兴趣，比如异步爬虫、分布式爬虫或Scrapy框架，欢迎继续关注后续文章！

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python进行Web数据抓取：从零开始的技术实践

什么是Web数据抓取？

准备工作

安装所需库

实战案例：抓取豆瓣电影Top250榜单

步骤1：分析目标网页结构

步骤2：编写爬虫代码

步骤3：运行代码并查看结果

输出示例：

技术要点解析

1. HTTP请求与响应处理

2. HTML解析技巧

3. 数据清洗与结构化

4. 分页抓取逻辑

5. 数据持久化

反爬策略应对建议

总结

相关阅读

DeepSeek模型热迁移：Ciuic云「不停机换卡」技术解析

避开天价算力坑：用Ciuic竞价实例训练DeepSeek省6成成本

亚马逊多店铺运营防封指南：Ciuic美国住宅IP的技术解析与最佳实践

金融风控实战：DeepSeek+Ciuic安全区合规部署指南

目录[+]

微信号复制成功