1. 环境准备
需安装Python 3.6+及requests库。Python环境:确认版本python --version,低于3.6需升级。库安装:终端执行pip install requests(权限问题加--user)。
2. 核心代码实现
3行代码完成请求-获取-保存全流程,解析如下:
3行核心代码
代码解析 第1行:导入requests库以使用网络请求功能。第2行:requests.get(url)发送GET请求,response包含响应数据(需替换url为目标地址)。第3行:以UTF-8编码将响应文本保存为page.html,支持自定义路径(如"data/page.html")。
3. 运行与结果验证
执行代码后验证下载有效性:运行:保存为download_page.py,终端执行python download_page.py(Python 3用python3)。验证:检查生成page.html且大小非0;若乱码,确认代码中encoding="utf-8",或尝试网页实际编码(通过<meta charset>查看)。
4. 总结
核心流程:环境准备(Python+requests)→ 3行代码(请求-保存)→ 结果验证。优势在于requests库简化HTTP操作,实现极简爬虫开发。
5. 注意事项
法律与伦理:遵守目标网站robots.txt协议,禁止爬取受保护内容;商业数据需授权,避免非法用途。技术问题处理:反爬应对:添加请求头模拟浏览器:
网络异常:设置超时requests.get(url, timeout=10);二进制文件:保存图片/PDF用response.content和"wb"模式。扩展方向:添加异常处理、多线程下载、结合BeautifulSoup解析数据、学习Scrapy框架。
