beautifulsoup获取script标签内的指定键的值_python 获取 script标签_ASN_forever的博客

相关文章推荐

咆哮的牛肉面 · SignalR Hub 在 .NET ...· 3 周前 ·

还单身的松球 · jquery ...· 2 周前 ·

不拘小节的山羊 · jquery监听div等元素的内容变化_监听 ...· 2 周前 ·

体贴的甘蔗 · sed 取行，删行，新增行，替换字符串 ...· 2 周前 ·

才高八斗的咖啡 · R语言学习：ggplot2包画图 - 知乎· 1 年前 ·

急躁的甜瓜 · PHP 使用递归实现树状菜单（无限级分类） ...· 1 年前 ·

直爽的电脑桌 · MySQL案例05：CPU负载优化 - ...· 1 年前 ·

正直的芹菜 · ZH奶酪：C语言中malloc()和free ...· 1 年前 ·

淡定的橙子 · Error: 503 for URL: ...· 1 年前 ·

<script type="application/ld+json">
          "@context": "https://ziyuan.baidu.com/contexts/cambrian.jsonld",
          "@id": "https://www.zhihu.com/question/30737616",
          "appid": "否",
          "pubDate": "2015-05-28T08:48:48",
          "upDate": "2016-06-07T11:43:49"
        }</script>

比如要获取pubDate的值，可以通过如下方式实现：

pubDate=json.loads(bs.find('script', {'type': 'application/ld+json'}).get_text())["pubDate"]

也就是要用到json库，通过find()以及get_text()获取标签整体内容，为字符串格式。将此字符串传递给json.loads()即可得到一个字典对象，再通过["键"]的方式即可得到对应的值

上面对应的输出结果如下

&lt;script type="application/ld+json"&gt; { "@context": "https://ziyuan.baidu.com/contexts/cambrian.jsonld", "@id": "https://www.zhihu.com/question/30737616",

import BeautifulSoup soup = BeautifulSoup . BeautifulSoup (html) 利用这个包先把html里 script ，style给清理了： [ script .extract() for script in soup.findAll(‘ script ’)] [style.extract() for style in soup.findAll(‘style’)]...

在上一篇中我们利用正则表达式和一些简单的操作爬取链家二手房的100个网页信息，这篇我们引入BeatifulSoup库来简化工作量，Beautiful Soup 是一个可以从HTML或XML文件中提取数据的 Python 库，我们可以通过BeatifulSoup文档来学习相关操作。下面是利用BeatifulSoup库来实现上一篇功能的代码。 import urllib2 import time

<head><title>The Website Title</title></head> <p>Download m

app移动端没有后台数据，没办法自己写呗，凑合着用，日子凑合着过，慢慢开始爬虫了这是一个 python scrapy项目，具体关于scrapy的知识自己扩展首先来一张自己稍稍总结的导图：代码不做过多解释功能：获取动态申请数据的url class HomeNewsSpidersSpider(scrapy.Spider): name = 'home_news_spiders'

针对部分无法获取数据，在xpath语句中使用“descendant-or-self::text()”，即可获取同级及下级的信息个人常用xpath爬虫格式： import requests from lxml import etree from fake_useragent import UserAgent import urllib from xlrd import open_workbook from xlutils.copy import copy #设置headers ua = UserAgent

遇到问题：资料调研过程中遇到js动态生成页面（在检查中可以看到需要爬取的数据，但是查看网页源代码中都是js动态生成，跟检查中的代码不一致），通过xpath在html中获取不到需要的数据，真正的数据在所需要的数据为 script 中的var indData,数据类型为包含有许多dict的list 解决办法：可以通过正则在 script 标签中截取数据，然后转化为json格式的数据。代码如下： #此处模拟获取到的html的text