今日头条数据采集,解决瀑布流网站
介绍使用八爪鱼8.3采集今日头条数据的方法
采集网站:
https://www. toutiao.com/ch/news_hot /
使用功能点:
l Ajax滚动加载设置
l 列表内容提取
步骤1:创建采集任务
1)进入主界面选择,选择 “自定义模式”
2)将上面网址 的网址 复制粘贴到网站输入框中,点击“ 保存网址 ”
3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的信息是这次演示要采集的内容
步骤2:设置ajax页面加载时间
l 设置打开网页步骤的ajax滚动加载时间
l 找到翻页按钮,设置翻页循环
l 设置翻页步骤ajax下拉加载时间
1)网页打开后,需要进行以下设置:打开流程图,点击 “打开网页” 步骤,在右侧的 高级选项 框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置 2秒, 这个页面的滚动方式 , 选择 直接滚动到底部 ;最后 点击确定
注意:今日头条的网站属于瀑布流网站,没有翻页按钮,这里的滚动次数设置将影响采集的数据量
步骤3:采集新闻内容
l 创建 数据提取列表
1)如图,移动鼠标选中评论列表的方框,左键点击,方框底色会变成绿色
然后点击 “选中子元素”
注意:点击右上角的“ 流程” 按钮,即可展现出可视化流程图。
2)然后点击 “选中全部”, 将页面中需要需要采集的信息添加到列表中
点击
注意: 在提示框中的字段上会出现一个 垃圾箱 标识,点击即可删除该字段。
3)点击 “采集数据”
4)修改采集 字段名称, 点击下方红色方框中的“ 保存并开始采集 ”
步骤4:数据采集及导出
1)根据采集的情况选择合适的采集方式,这里选择“ 启动本地采集 ”
说明 :本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)采集完成后,选择 合适的导出方式 ,将采集好的数据导出