temme：优雅地从 HTML 提取 JSON 数据

相关文章推荐

追风的野马 · python下划线加逗号_mob649e81 ...· 6 月前 ·

聪明伶俐的沙发 · Exception - 随笔分类 - ...· 1 年前 ·

活泼的茶壶 · es6、ts、高阶js的踩坑之旅 - ...· 1 年前 ·

眼睛小的酸菜鱼 · 【gcc】centos安装gcc_sirri ...· 1 年前 ·

听话的板栗 · react 将字符串解析为markdown ...· 1 年前 ·

本文介绍了一个从 HTML 提取 JSON 数据的工具，并以豆瓣电影的例子展示了该工具的使用方法。本文中用到了大量的 CSS 选择器，CSS 选择器可以参考 MDN 。

最近几个月写 Node 爬虫比较多，解析 HTML 文档用的工具是 cheerio （cheerio 可以认为是服务器版的 jQuery）。cheerio 功能相当丰富，提供了一大堆 API 来查询/修改/删除/添加结点或文本。不过随着爬取的页面数量越来越多，大量使用 cheerio 还是显得繁琐了一点。爬虫对于处理 HTML 的模式其实比较固定，但是 cheerio 处理某些模式时不够简洁明了，下面三点就是一些比较常见的情况：

下面的三点中，假设我们要从豆瓣电影首页中爬取上图这样一个「正在热映」 列表。注意该列表是实时更新的，所以本文中下面的选择器的运行结果可能不同。

同一个元素会包含多个数据字段。比如上图中每个电影都有电影标题 title ，链接 url 和评分 rate 字段；

爬取目标是一个列表（甚至是列表的列表）。比如上图中我们需要抓取一个电影信息列表；

频繁但简单的格式处理。例如：将电影的评分从字符串类型转化为数字，去除电影链接中不需要的 url 参数。

temme 就是基于以上几点观察而开发出来的处理 HTML 的工具。temme 在 CSS 选择器的基础上，针对以上三点，加入了额外的语法来优雅地处理上述情况：

支持同时使用多个选择器；支持多个字段同时抓取；

支持列表抓取；

支持格式处理。

安装与使用

# 全局安装 yarn global add temme # npm install --save temme # 最基本的使用方式 temme <selector> <html> # 省略html参数，使用来自stdin的输入；--format 参数表示格式化输出 temme <selector> --format # 使用文件中的选择器 temme <path-to-a-selector-file> <html> # 和 curl 配合使用 curl -s <url> | temme <selector> temme 提供了一个在线网页版本，其中的编辑器提供了语法高亮功能。本文的剩下的部分也可以在该在线版本中进行，注意将对应的 HTML 复制过来即可。例子一：从豆瓣电影首页抓取电影信息抓取第一个电影的标题，评分以及链接。temme 选择器如下：命令行运行步骤如下: curl -s https://movie.douban.com | temme '.ui-slide-item[data-title=$title data-rate=$rate]; .ui-slide-item a[href=$url];' --format # output: # "title": "烟花打ち上げ花火、下から見るか？横から見るか？", # "rate": "5.7", # "url": "https://movie.douban.com/subject/26930504/?from=showing" 例子中的选择器和 CSS 选择器非常相似，不一样的地方在于 temme 选择器包含了下面这样的结构：[foo=$bar]。该结构的含义是「将 foo 属性放到结果的 bar 字段」。上面的选择器包含了三个这样的结构，一次性选取了三个字段。上面的选择器也同时包含了两个子选择器（在图中每行一个），每个子选择器用分号作为结束符。另一个常见的结构是 div{$buzz}，该结构表示「将 div 元素的文本内容放到结果的 buzz 字段」。如果熟悉 emmet 的话，可以看出来目前 temme 的行为就是 emmet 的逆过程。例子二：格式变换上面结果中 rate 是个字符串，我们可以用过滤器 Number 对其进行处理。我们这次不选取其他字段。 curl -s https://movie.douban.com | temme '.ui-slide-item[data-rate=$rate|Number];' # output: {"rate":5.7} 可以看到结果中 rate 字段类型为数字。目前结果中只有 rate 一个字段，那么将该字段的值直接作为结果更为方便： curl -s https://movie.douban.com | temme '.ui-slide-item[data-rate=$|Number];' # output: 5.7 省略 $xxx 中的 xxx，那么结果的格式会从 { xxx: yyy } 变为 yyy。例子三：「正在热映」列表「正在热映」是一个列表，每一个电影信息对应一个满足 CSS 选择器 .ui-slide-item[data-title] 的 HTML 元素。上面的例子我们只选取了第一个电影的数据，这里我们使用 @ 符号来选取该列表。抓取「正在热映」列表中所有电影的信息，选择器如下：运行效果如下： curl -s https://movie.douban.com | temme '.ui-slide-item[data-title] @recentMovies { &[data-title=$title data-rate=$rate|Number]; a[href=$url]; }' --format # output: # "recentMovies": [ # "title": "烟花打ち上げ花火、下から見るか？横から見るか？", # "rate": 5.7, # "url": "https://movie.douban.com/subject/26930504/?f rom=showing" # "title": "相声大电影之我要幸福", # "rate": 0, # "url": "https://movie.douban.com/subject/26811605/?f rom=showing" # ...... 选择器含义：每一个满足 CSS 选择器 .ui-slide-item[data-title] 的 HTML 元素就是一个电影详情的父元素，我们将 @ 放在该选择器之后，紧跟的 recentMovies 表示「最近热映列表」在最终结果中的字段名，然后我们在花括号中放入例子一中的两个选择器，以选取单个电影的数据。如果我们在这里省略 @recentMovies 中的 recentMoviews，仅保留一个 @ 符号，那么最终结果就会变为一个数组（JSON 的层级会减一层）。列表的捕获可以进行嵌套。例如在一个 stackoverflow 问题页面中有多个回答，每个回答下有多个评论，下面的选择器可以将这些评论以二维列表的格式抓取下来： curl -s https://stackoverflow.com/questions/1014861/is-there-a-css-parent-selector | temme '.answer@{ .comment@{ .comment-body{$|trim}; }; };' 例子四：电影详情页面在首页爬取到电影链接列表之后，我们可以进入每个电影的页面爬取该电影的详细数据。这里我们以烟花这个电影为例子。电影介绍页面中的数据非常详细，包含了电影名称、导演、编剧、主演、电影类型、官方网站等信息。这里挑取了部分数据进行抓取，选择器如下： // 电影的名称 [property="v:itemreviewed"]{$title}; // 电影上映年份 .year{$year|substring(1, 5)|Number}; // 电影导演 [rel="v:directedBy"]@directedBy { &{$} }; // 电影编剧(:contains是来自jQuery的选择器 https://api.jquery.com/contains-selector/) :contains('编剧') + span{$storyFrom|split('/')||trim}; // 电影主演(前三位) [rel="v:starring"]@starring|slice(0, 3){ &{$} }; // 平均评分 [property="v:average"]{$avgRating|Number}; // 具体的评分情况 .ratings-on-weight .item@ratingInfo{ span[title=$title]; .rating_per{$percentage}; // 电影剧情简介 [property="v:summary"]{$summary|trim}; // 喜欢这部电影的人也喜欢... .recommendations-bd dl@recommendations{ img[alt=$name src=$imgUrl]; a[href=$url]; 这里选择器较长，写在终端中不太方便，我们将该选择器保存到文件 douban-movie.temme，然后运行 temme： curl -s https://movie.douban.com/subject/26930504/ | temme douban-movie.temme --format # output: # "title": "烟花打ち上げ花火、下から見るか？横から見るか？", # "year": 2017, # "directedBy": [ "新房昭之", "武内宣之" ], # "storyFrom": [ "岩井俊二", "大根仁" ], # "starring": [ "广濑铃", "菅田将晖", "宫野真守" ], # "avgRating": 5.4, # "ratingInfo": [ # { "title": "力荐", "percentage": "7.2%" }, # { "title": "推荐", "percentage": "12.8%" }, # ...... # "summary": "川村元气即将再度与《你的名字。》制......", # "recommendations": [ # "name": "想要传达你的声音", # "imgUrl": "https://img3.doubanio.com/vie......", # "url": "https://movie.douban.com/subject......" # ...... 该选择器虽然选取了很多内容，但是仍然保持了清晰的结构以及良好的可读性。可以打开该例子的在线版本，对比其中选择器和输出的格式，应该可以明白该选择器的含义。写爬虫的时候，我们首先分析页面结构，利用在线版本为每一种不同类型的页面写好对应的选择器，然后将选择器保存在本地文件中。爬虫运行获取到 HTML 之后，我们读取相应的选择器文件，运行并得到想要的输出。总结与其他上面的介绍基本涉及到了 temme 的核心用法，可以看到 temme 实现了前面提到的改进思路。实践中大部分网站的页面结构都是比较清晰的，分析页面元素的 CSS 选择器也比较容易，此时使用 temme 可以大大提高数据选取的效率。temme 更完整的用法和文档还请移步 Github，欢迎 fork 和 star。下面列举一些开发用到的主要技术：开发语言 TypeScript 自定义语法解析 PEG.js HTML解析 cheerio 编译工具 webpack 自动化测试 Jest 在线版本编辑器 ace 灵感来自 emmet 分类：前端相关推荐 ssh_晨曦时梦见兮 JavaScript Vue.js 从尤雨溪这两天微博募捐，思考开源如何赚大钱这两天，尤大在他的微博表示，他打算开启国内开源捐赠计划，截止本文发帖为止，已经有 6k / 月的固定充电了。这个数额目前还是比较小的，企业级别的 sponsor 应该还没有出现。 3.6w 12小时前 JavaScript js Symbol类型讲解 Symbol 是 JavaScript 中的一种原始数据类型。它是在 ECMAScript 6 (ES6) 标准中引入的，用于表示独一无二的标识符 518 JetTsang 12小时前 JavaScript React.js Ant Design 关于antd模态框的一种封装思路自我介绍看官们好，我叫JetTsang，之前都是在掘金潜水来着，现在偶尔做一些内容输出吧。引出在React开发当中，使用到Modal模态框的时候，通常需要去维护1个state，同时在对应的回调函 563 superZidan JavaScript React.js 在 React Router 中使用 JWT 本篇文章将探讨 JWT 身份校验与 React 和 React-router 的无缝集成。我们还将学习如何处理公共路由、受校验保护路由，以及如何利用 axios 库通过身份验证令牌发出 API 请求 2.1w CUGGZ JavaScript React.js 高中生打破React性能极限，将React性能提升70%！ React 是当今最受欢迎的 JavaScript 框架之一，它的创新就是引入了虚拟 DOM 技术，但很多现代框架已经不再采用这种方案。Svelte 的创建者 Rich Harris 曾将其称作纯粹的 9380 Vue.js JavaScript Vue2屎山代码大盘点遇到屎山代码，大多数人第一反应就是这谁写的代码这么差，其实大多数公司大多数人至少曾经都写过一些屎山代码，有屎山代码很正常，问题在于怎么快速梳理出业务逻辑，防止在迭代新需求时引发bug 6480 AliPaPa JavaScript ChatGPT对话为什么不用Websocket而使用EventSource？在ChatGPT官网我们可以看到，对话的方式仅仅只有一个post请求，而没有使用IM中使用的websocket链接。 4320 Defineee three.js JavaScript Threejs 地图3D可视化我正在参加「掘金·启航计划」在开始绘制图形前，需要一份包含地理信息数据，我们可以从阿里云提供的小工具获取，properties中包含了名字、中心、质心等信息 863 threerocks JavaScript 探秘神奇的IntersectionObserver：释放网页性能的黑科技！ IntersectionObserver 提供了一种高效的方法来观察元素是否进入或离开视窗，而无需依赖滚动事件或定时器。 959 Cosolar 16小时前 JavaScript EJS：高效的嵌入式 JavaScript 模板引擎 EJS（Embedded JavaScript Templates）是一种简单而灵活的模板引擎，用于将数据动态渲染到网页上。本文将从介绍EJS的背景和起源开始，详细介绍EJS的特性和使用方法，包括安装 669 margin_100px uni-app JavaScript 某外包面试官：你还不会uniapp？😲😲 uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、Web（响应式）、以及各种小程序 9911 王士江WangJohn JavaScript 「AntV」怎样用SVG & X6制作客户旅程时光轴最近我在我们前端平台研发团队内部做了一次技术分享——《怎样用SVG & X6制作客户旅程时光轴》——总结了我最近开发的一个客户旅程图项目的相关经验，现在写成这篇文章，希望能帮助到有同样需求的各位朋友。 838 老骥farmer JavaScript Vue.js 因为一个写法，我翻烂了vue源码，这是vue的问题吧，我要不要提pr！问题背景我已经老了。。。。面对现在的观众不知该如何表达。既然这样的话那...... 直接上代码吧：事情就发在昨天，在我们单位的办公大厅里，有一个产品向我走来。他主动介绍自己，他对我说，“老骥： 1.6w markthree 19小时前 GitHub JavaScript 如何用 deno 加快 npm 镜像源的切换我在日常的项目管理需要频繁地切换 npm`的镜像源，所以用 deno 实现了 nrm，每次切换源都在 100ms 内，速度超级快 313 19小时前 JavaScript [javascript核心-15] 手写完美深拷贝代码实现🍌 手写完美深拷贝代码实现🍌，从浅入深，实现完美深拷贝。大前端知识体系与面试宝典，从前端到后端，全栈工程师，成为六边形战士 599 XaYvier Element Vue.js Element 2.0 正式发布 Element 2.0 已经在今天上午发布正式版，官网也同步更新为默认显示 2.0 版本的文档（当然，你仍然可以从下拉菜单中选择查看 1.x 版本的文档）。另外，最近收到一些大陆用户反馈官网加载慢的问题，随着 2.0 版本的上线，你也可以访问部署在国内的 http://elem… 1.1w XaYvier JavaScript Immutable.js 抱歉，学会 Proxy 真的可以为所欲为 Proxy 是 JavaScript 2015 的一个新特性，下面让我们看看他实现哪些有趣的东西。在 JavaScript 里，我们通常用一个对象来表示枚举值。但这往往是不安全，我们希望枚举值：如果不存在的话，报错。不允许动态设置，否则报错。不允许删除，否则报错。我… 1.0w XaYvier Vue.js Markdown GitHub VuePress 快速踩坑最近有个开源项目非常火，那就是尤小右开发的 VuePress，VuePress 可以让您非常方便的在 Markdown 文档中编写 Vue 代码，并且 VuePress 对编译后的 HTML 文件做了一些针对搜索引擎的优化。另外 VuePress 针对 Markdown 文件做了 1.4w XaYvier Visual Studio Code 学几招 vscode 技巧俗话说「磨刀不误砍柴工」，对于开发者来说，一款优秀的 IDE 或者 text editor 能有效提升工作效率。Visual Studio Code （下文中简称 vscode）因其强大的功能，较快的运行速度以及众多的扩展，在开发者中相当流行。本文就来介绍 vscode 的一些… 1.0w XaYvier JavaScript 网页图片加载优化方案饿了么 App 中新零售项目主要是以图片展示为主，引导用户点击轮播广告栏或者店铺列表进入指定的商品页面，因此页面中包含了大量图片，如搜索框下面的轮播广告栏、中部的促销栏以及底部的店铺列表，这些区域中都有大量的展示图片。因此图片的加载速率直接影响页面的加载速度。下面将从图片加载存… 9844 友情链接： XaYvier 开发工程师 @ eleme 6,861