Python爬虫：3行代码下载网页内容

103 2025-10-07 09:00:30

1. 环境准备

需安装Python 3.6+及requests库。Python环境：确认版本python --version，低于3.6需升级。库安装：终端执行pip install requests（权限问题加--user）。

2. 核心代码实现

3行代码完成请求-获取-保存全流程，解析如下：

3行核心代码

代码解析第1行：导入requests库以使用网络请求功能。第2行：requests.get(url)发送GET请求，response包含响应数据（需替换url为目标地址）。第3行：以UTF-8编码将响应文本保存为page.html，支持自定义路径（如"data/page.html"）。

3. 运行与结果验证

执行代码后验证下载有效性：运行：保存为download_page.py，终端执行python download_page.py（Python 3用python3）。验证：检查生成page.html且大小非0；若乱码，确认代码中encoding="utf-8"，或尝试网页实际编码（通过<meta charset>查看）。

4. 总结

核心流程：环境准备（Python+requests）→ 3行代码（请求-保存）→ 结果验证。优势在于requests库简化HTTP操作，实现极简爬虫开发。

5. 注意事项

法律与伦理：遵守目标网站robots.txt协议，禁止爬取受保护内容；商业数据需授权，避免非法用途。技术问题处理：反爬应对：添加请求头模拟浏览器：

网络异常：设置超时requests.get(url, timeout=10)；二进制文件：保存图片/PDF用response.content和"wb"模式。扩展方向：添加异常处理、多线程下载、结合BeautifulSoup解析数据、学习Scrapy框架。