使用 Python 构建一个简单的 Web 爬虫

34分钟前 2阅读

在当今大数据和人工智能快速发展的时代，数据获取变得尤为重要。Web 爬虫（Web Scraper）作为从互联网上自动化收集信息的工具，广泛应用于搜索引擎、数据分析、市场调研等领域。本文将介绍如何，并通过实际代码展示其工作原理。

环境准备

为了构建我们的爬虫，我们需要安装一些常用的库：

requests：用于发送 HTTP 请求。BeautifulSoup：用于解析 HTML 页面内容。pandas：用于存储和处理数据。

你可以使用以下命令安装这些依赖包：

pip install requests beautifulsoup4 pandas

基本概念

1. 发送请求

使用 requests 模块可以向目标网站发送 GET 请求并获取网页内容。

import requestsurl = "https://example.com"response = requests.get(url)print(response.status_code)  # 输出状态码，200 表示成功print(response.text[:500])   # 输出前500个字符

2. 解析 HTML

我们使用 BeautifulSoup 来解析 HTML 内容。它可以轻松地提取页面中的特定元素。

from bs4 import BeautifulSouphtml_content = response.textsoup = BeautifulSoup(html_content, 'html.parser')# 获取所有链接for link in soup.find_all('a'):    print(link.get('href'))# 获取标题print(soup.title.string)

3. 数据提取与结构化

假设我们要抓取一个新闻网站的标题和链接，我们可以编写如下代码：

def scrape_news(url):    response = requests.get(url)    soup = BeautifulSoup(response.text, 'html.parser')    news_list = []    for item in soup.find_all('div', class_='news-item'):        title = item.find('h3').text.strip()        link = item.find('a')['href']        news_list.append({'title': title, 'link': link})    return news_list# 示例调用url = "https://example-news-site.com/latest"data = scrape_news(url)

4. 存储为 CSV 文件

使用 pandas 可以将数据保存为 CSV 文件，便于后续分析。

import pandas as pddf = pd.DataFrame(data)df.to_csv("news_data.csv", index=False)print("数据已保存至 news_data.csv")

进阶技巧

1. 设置 User-Agent 和 Headers

为了避免被网站屏蔽，我们可以设置请求头中的 User-Agent。

headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}response = requests.get(url, headers=headers)

2. 异常处理

网络请求可能会失败，因此加入异常处理是必要的。

try:    response = requests.get(url, headers=headers, timeout=10)    response.raise_for_status()  # 如果响应状态码不是 200，抛出异常except requests.exceptions.RequestException as e:    print(f"请求失败: {e}")

3. 使用代理 IP（可选）

如果你需要频繁访问某个网站，使用代理可以避免 IP 被封。

proxies = {    'http': 'http://your-proxy-ip:port',    'https': 'https://your-proxy-ip:port'}response = requests.get(url, headers=headers, proxies=proxies)

完整示例程序

下面是一个完整的 Web 爬虫程序，它会抓取指定网页上的新闻标题和链接，并保存为 CSV 文件。

import requestsfrom bs4 import BeautifulSoupimport pandas as pddef scrape_news(url, headers):    try:        response = requests.get(url, headers=headers, timeout=10)        response.raise_for_status()    except requests.exceptions.RequestException as e:        print(f"请求失败: {e}")        return []    soup = BeautifulSoup(response.text, 'html.parser')    news_list = []    for item in soup.find_all('div', class_='news-item'):        title = item.find('h3').text.strip()        link = item.find('a')['href']        news_list.append({'title': title, 'link': link})    return news_listdef save_to_csv(data, filename):    df = pd.DataFrame(data)    df.to_csv(filename, index=False)    print(f"数据已保存至 {filename}")if __name__ == "__main__":    headers = {        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'    }    url = "https://example-news-site.com/latest"    news_data = scrape_news(url, headers)    if news_data:        save_to_csv(news_data, "news_data.csv")    else:        print("未抓取到任何数据。")

注意：上述示例中使用的 URL "https://example-news-site.com/latest" 是虚构的，请替换为你希望爬取的实际网站地址。

法律与伦理问题

虽然 Web 爬虫技术非常有用，但我们在使用时也应遵守相关法律法规和网站的《服务条款》。常见的注意事项包括：

查看目标网站的 robots.txt 文件，了解哪些页面允许爬取。避免对服务器造成过大压力，合理控制请求频率。不要爬取用户隐私或受版权保护的内容。

总结

本文介绍了如何，涵盖了从发送请求、解析 HTML 到数据存储的全过程，并提供了完整的代码示例。通过学习和实践，你可以根据自己的需求扩展爬虫功能，例如添加多线程、数据库存储等高级特性。

随着技术的进步，Web 爬虫不仅可以用来抓取静态页面，还能结合 Selenium 等工具实现动态网页的自动化操作。掌握这项技能，将为你在数据科学、自动化测试、信息监控等领域打开新的大门。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用 Python 构建一个简单的 Web 爬虫

环境准备

基本概念

1. 发送请求

2. 解析 HTML

3. 数据提取与结构化

4. 存储为 CSV 文件

进阶技巧

1. 设置 User-Agent 和 Headers

2. 异常处理

3. 使用代理 IP（可选）

完整示例程序

法律与伦理问题

总结

相关阅读

使用 Python 实现一个简单的神经网络分类器

深入理解Python中的多线程编程

使用 Python 构建一个简单的 Web 爬虫

!!!!

目录[+]

微信号复制成功