相关文章推荐
傻傻的课本  ·  QT ...·  11 月前    · 
本文介绍如何使用Python结合BeautifulSoup和urllib.request.urlretrieve爬取并下载CSDN博客中的图片。作者详细阐述了爬取用户所有博客、处理多页面跳转、规避特殊字符命名文件夹以及创建文件夹保存图片的步骤和实现代码。 摘要由CSDN通过智能技术生成

《Web Scrapying with Python》
《精通 Scrapy 网络爬虫》

而今天受到启发的就是 《Web Scrapying with Python》 P115 页的这段代码:

from urllib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 
html = urlopen("http://www.pythonscraping.com") 
bsObj = BeautifulSoup(html) 
imageLocation = bsObj.find("a", {
  "id": "logo"}).find("img")["src"] 
urlretrieve (imageLocation, "logo.jpg")

这段代码非常简洁清晰的演示了 urllib.request.urlretrieve 方法的使用,即用来下载远程 url 的资源文件。

接下来,我使用这个核心函数,加上 BeautifulSoup 库,实现自己的 CSDN 博客文章中附带图片的下载。

要实现一个爬虫程序,我们先要明确我们的目标:

  • 爬取用户的所有博客文章,获取其标题,以其标题为文件夹名称创建一个文件夹用来容纳该博客内的附带图片

  • 在每个以博客文章标题为名的文件夹中,放置我们下载的图片资源

  • 为了实现这个需求,我们需要回答自己的,也就是以下几个核心问题:

    1. 如何爬取用户的所有博客文章?

    其中根据我在 Chrome 和 scrapy shell 中测试调试的结果:

    # 文章列表和文章链接:http://blog.csdn.net/u012814856
    articles = bsObj.findAll('div', {
      'class': 'article_item'})
    link = article.h1.a.attrs['href']
    # 文章标题和图片:http://blog.csdn.net/u012814856/article/details/78370952
    title = bsObj.h1.get_text()
    images = bsObj.find('div', {
      'class': 'article_content'}).findAll('img'</
    Web Scr api ng with Python 2E》中文翻译是 python 爬虫 权威指南 单单从LPTHW来学 python 还是传统的从最初的打印,到变量数据类型,再到判断循环几大结构,和传统的编程语言没什么差觉得,语言还是要用起来 这篇主要是bs4库下的BeautifulSoup函数的安装和简单应用
    Python 爬虫 视频教程零基础小白到 scr apy 爬虫 高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&amp;id=564564604865  https://item.taobao.com/item.htm?spm=a230r.1.14.1.eE8huX&amp;id...
    一、引言昨天,在实现了 使用 Python 对于 GitHub 指定用户的 Star 总数进行 爬取 的功能之后,我又开始寻找着其他的 爬取 需求(想要练习 爬虫 的想法总是隐隐作痒 ^_^)。想要了解 使用 Python 爬取 GitHub 用户的总 Star 数的同学可以观看我的上一篇 博客 Web Scr api ng with Python : 使用 Python 爬 GitHub Star 数现在,我想要实现
    The Internet contains the most useful set of data ever assembled, most of which is publicly accessible for free. However, this data is not easily usable. It is embedded within the structure and style of web sites and needs to be carefully extracted. Web scr api ng is becomi ng increasi ng ly useful as a means to gather and make sense of the wealth of inf orm ation available online. This book is the ultimate guide to usin g the latest features of Python 3.x to scr ape data from web sites. In the early chapters, you’ll see how to extract data from static web pages. You’ll learn to use cachi ng with databases and files to save time and manage the load on servers. After coveri ng the basics, you’ll get hands -on practice buildi ng a more sophisticated crawler usin g browsers, crawlers, and concurrent scr apers. You’ll determine when and how to scr ape data from a Java Scr ipt-dependent web site usin g PyQt and Selenium. You’ll get a better understandi ng of how to submit f orm s on complex web sites protected by CAPTCHA. You’ll find out how to automate these actions with Python packages such as mechanize. You’ll also learn how to create class-based scr apers with Scr apy libraries and implement your learni ng on real web sites. By the end of the book, you will have explored testi ng web sites with scr apers, remote scr api ng , best practices, worki ng with images, and many other relevant topics.
    Python Web Scr api ng (2nd) 英文无水印pdf 第2版 pdf所有页面 使用 FoxitReader和PDF-XCha ng eViewer测试都可以打开 本资源转载自网络,如有侵权,请联系上传者或 csdn 删除 本资源转载自网络,如有侵权,请联系上传者或 csdn 删除
    web browser  它是 python 自带的模块,可以打开浏览器定位到一个特定网址。 Requests 从 Internet上面 下载 文件和网页 Beautiful Soup 解析HTML文件. Selenium 启动并控制 Web 浏览器。 Selenium能够在此浏览器中填写表单并模拟鼠标单击。 Project: maplt.py with th...