Document对象:根元素的访问,也就是HTML标签的访问。使用document.documentElement访问根对象。使用Document对象查找对象getElementById():通过节点的id属性,查找对应节点。getElementsByName():通过节点的name属性,查找对应节点。getElementsByTagName():通过节点名称,查找对应节点。使
document
对象
在浏览器窗口中,每个
对象
都会包含一个
document
属性,该属性引用窗口中显示HTML文档的
document
对象
。
document
对象
与它所包含的各种节点(如表单、图像和链接)构成了文档
对象
模型。
访问文档
对象
浏览器在加载文档时,会自动构建文档
对象
模型,把文档中同类元素
对象
映射到一个集合中,然后以
document
对象
属性的形式允许用户访问。
以下集合都是HTMLColle...
public static void main(String[] args) {
// 根据全国各个高校的地址,获取视频中相应列表的URL和要抓取的值
Document
document
= null;
try {
document
= Jsoup
.connect(
一、基本知识
1.1 API和Web API
API(Application Programming Interface,应用程序编程接口)是一些预定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码或理解内部工作机制的细节。
简单理解:API是给程序员提供的一种工具,以便能更轻松的实现想要完成的功能。
Web API是浏览器提供的一套操作浏览器功能和页面元素的API(BOM和DOM),主要针对于浏览器做交互效果。Web API一般都有输入和输出(函数
在HTML文档中,可以通过节点
对象
的
node
Type属性来区分节点类型。
node
Type属性返回一个数字,不同的数字代表不同的节点类型,常见的节点类型包括:
1. 元素节点(
Element
Node
):
node
Type为1,代表HTML文档中的标签元素,如<div>、<p>等。
2. 文本节点(Text
Node
):
node
Type为3,代表HTML文档中的文本内容,如标签元素中的文字。
3. 注释节点(Comment
Node
):
node
Type为8,代表HTML文档中的注释内容,如<!--这是一个注释-->。
4. 文档节点(
Document
Node
):
node
Type为9,代表整个HTML文档。
5. 文档类型节点(
Document
Type
Node
):
node
Type为10,代表HTML文档的文档类型声明,如<!DOCTYPE html>。
通过判断节点
对象
的
node
Type属性,可以方便地区分不同类型的节点
对象
,从而进行相应的操作。