c++ 高效解析url算法_c++ 解析url

协议解析url

http协议，rtp协议，rtmp协议，rtsp中解析url，很多语言都有封装的解析URL的工具类库，在c++ 写的server的中如果需要解析url，需要写一个高效率的解析封装方法。这里使用c++，仅仅使用c++ STL 的string 类以及c++的封装特性，解析尽量使用了c的方式，以便于改进。
比较和查找

在url中查找字符串，如？，&，等等
static inline int judge_equeal(const char *pos, const char *compare, size_t &clen)
	for (size_t i = 0; i < clen; i++)
		if (pos[i] != compare[i])
			return -1;
	return 0;
//这个函数返回位置长度
static inline int string_find(const char *u, const char *compare)
	size_t clen = strlen(compare);
	size_t ulen = strlen(u);
	if (clen > ulen)
		return -1;
	const char *pos = u;
	const char *posend = u + ulen - 1;
	for (; pos <= posend - clen; pos++)
		if (judge_equeal(pos, compare, clen) == 0)
			return (int)(pos - u);
			//return 0;
	return -1;
//这个函数返回字符串位置
//如 abcdef  def 
static inline const char* string_find_pos(const char *u, const char *compare)
	size_t clen = strlen(compare);
	size_t ulen = strlen(u);
	if (clen > ulen)
		return NULL;
	const char *pos = u;
	const char *posend = u + ulen - 1;
	for (; pos <= posend - clen; pos++)
		if (judge_equeal(pos, compare, clen) == 0)
			return pos;
			//return 0;
	return NULL;
数据结构定义
 
数据结构中分别为协议，主机字符串，主机端口号，以及uri，如果需要param参数，如
 http://aaa.com:8080/?x=123
 求取x的值，需要调用GetParam函数，具体请看后面main函数sample 
typedef struct UrlParam
	string protocol;
	string host;
	unsigned short port = 80;
	string uri;
	void clear()
		protocol.clear();
		host.clear();
		uri.clear();
		port = 80;
}TUrlParam;
解析类封装
 
class TParseUrl
protected:
	static int parse_domain(const char *pos, const char *posend, TUrlParam & param)
		int point = string_find(pos, ":");
		if(point>=0)
			param.host = string(pos, point);
			pos += point + 1;
			string tmp = string(pos, posend - pos) ;
			if(IsNumber(tmp.c_str()))
				param.port = atoi(tmp.c_str());
			return 0;
		return -1;
	static bool IsNumber(const char * num)
		int length = (int)strlen(num);
		for (int i = 0; i < length; i++)
			if (i == 0 && (num[i] == '+' || num[i] == '-'))
				if (length > 1)
					continue;
				return false;
			if (!isdigit(num[i]))
				return false;
		return true;
public:
	TParseUrl(const char * url) {
		ParseUrl(url, v_param);
	virtual ~TParseUrl() {};
	TUrlParam v_param;
#define POS_JUDGE if(pos>=posend) return -1
#define POS_JUDGE_OK if(pos>=posend) return 0
	static int ParseUrl(const char *url, TUrlParam &param)
		//memset(&param, 0, sizeof(param));
		const char * posend = url + strlen(url) -




    
 1;
		param.uri = url;
		const char * pos = url;
		int point = 0;
		if ((point = string_find(pos, "://")) >= 0)
			param.protocol = string(url, point);
			return -1;
		pos += point + 3; //strlen("://")
		POS_JUDGE;
		if ((point = string_find(pos, "/")) >= 0)
			param.host = string(pos, point);
			const char *end = pos + point;
			parse_domain(pos, end, param);
			param.uri = string(pos + point + 1);
			//the left all is domain
			int hlen = (int)(posend - pos + 1);
			param.host = string(pos,hlen);
			const char *end = pos + hlen - 1;
			parse_domain(pos, end, param);
			param.uri = "/";
			return 0;
		return 0;
	string GetParam(const char *param)
		int point = -1;
		const char *ustart = v_param.uri.c_str();
		const char * start = string_find_pos(ustart, "?");
		if (start != NULL)
			++start;
			//?a=abc&b=ddd
			string par = param;
			par +="=";
			start = string_find_pos(start, par.c_str());
			if (start != NULL )
				const char * j = start - 1;
				char c = *j;
				if (c == '&' || c == '?')
					start += par.length();
					const char * end = string_find_pos(start, "&");
					if (end != NULL)
						return string(start, end);
					return string(start);
		return "";
	void SetUrl(const char *url)
		v_param.clear();
		ParseUrl(url, v_param);
在GetParam的时候，如果没有 
 if (c == ‘&’ || c == ‘?’) 
的判断是不行的，为了加快判决我们直接是模式匹配，但是有如 “abc=” 如果不小心把“c=” 的模式配置在url中查找到就去取值是不对的，判断前一个字节是？或者& 是明智的做法。 
int main()
cout << "======================================================"<<endl;
	const char * url = "rtp://234.5.6.7:8000/live/1000/s1?a=abc&b=ddd";
	cout << url << endl;
	TParseUrl parse(url);
	cout << parse.v_param.protocol << endl;
	cout << parse.v_param.host<< endl;
	cout << parse.v_param.port << endl;
	cout << parse.v_param.uri << endl;
	cout<<  parse.GetParam("a")<<endl;
	cout << parse.GetParam("b") << endl;
	cout << endl << endl;
	cout << "======================================================"<<endl;
	url = "https://127.0.0.1:9001/abc/qianbo/ss?abc=qianbo&abcd=test";
	cout << url << endl;
	parse.SetUrl(url);
	cout << parse.v_param.protocol << endl;
	cout << parse.v_param.host << endl;
	cout << parse.v_param.port << endl;
	cout << parse.v_param.uri << endl;
	cout << parse.GetParam("c") << endl;
	cout << parse.GetParam("d") << endl;
	cout << parse.GetParam("abc") << endl;
	cout << parse.GetParam("abcd") << endl;
花了一小段时间写这个解析，希望有使用的人提出bug，留言。 
全部代码,复制可用
 
Author:钱波
email: 418511899@qq.com
wei:   18091589062
func  :类
time:  2021年6月9日
#pragma once
#include <stdio.h>
#include <stdlib.h>
#include <memory.h>
#include <string.h>
#include <string>
#include <iostream>
using namespace std;
static inline int judge_equeal(const char




    
 *pos, const char *compare, size_t &clen)
	for (size_t i = 0; i < clen; i++)
		if (pos[i] != compare[i])
			return -1;
	return 0;
static inline int string_find(const char *u, const char *compare)
	size_t clen = strlen(compare);
	size_t ulen = strlen(u);
	if (clen > ulen)
		return -1;
	const char *pos = u;
	const char *posend = u + ulen - 1;
	for (; pos <= posend - clen; pos++)
		if (judge_equeal(pos, compare, clen) == 0)
			return (int)(pos - u);
			//return 0;
	return -1;
static inline const char* string_find_pos(const char *u, const char *compare)
	size_t clen = strlen(compare);
	size_t ulen = strlen(u);
	if (clen > ulen)
		return NULL;
	const char *pos = u;
	const char *posend = u + ulen - 1;
	for (; pos <= posend - clen; pos++)
		if (judge_equeal(pos, compare, clen) == 0)
			return pos;
			//return 0;
	return NULL;
typedef struct UrlParam
	string protocol;
	string host;
	unsigned short port = 80;
	string uri;
	void clear()
		protocol.clear();
		host.clear();
		uri.clear();
		port = 80;
}TUrlParam;
class TParseUrl
protected:
	static int parse_domain(const char *pos, const char *posend, TUrlParam & param)
		int point = string_find(pos, ":");
		if(point>=0)
			param.host = string(pos, point);
			pos += point + 1;
			string tmp = string(pos, posend - pos) ;
			if(IsNumber(tmp.c_str()))
				param.port = atoi(tmp.c_str());
			return 0;
		return -1;
	static bool IsNumber(const char * num)
		int length = (int)strlen(num);
		for (int i = 0; i < length; i++)
			if (i == 0 && (num[i] == '+' || num[i] == '-'))
				if (length > 1)
					continue;
				return false;
			if (!isdigit(num[i]))
				return false;
		return true;
public:
	TParseUrl(const char * url) {
		ParseUrl(url, v_param);
	virtual ~TParseUrl() {};
	TUrlParam v_param;
#define POS_JUDGE if(pos>=posend) return -1
#define POS_JUDGE_OK if(pos>=posend) return 0
	static int ParseUrl(const char *url, TUrlParam &param)
		//memset(&param, 0, sizeof(param));
		const char * posend = url + strlen(url) - 1;
		param.uri = url;
		const char * pos = url;
		int point = 0;
		if ((point = string_find(pos, "://")) >= 0)
			param.protocol = string(




    
url, point);
			return -1;
		pos += point + 3; //strlen("://")
		POS_JUDGE;
		if ((point = string_find(pos, "/")) >= 0)
			param.host = string(pos, point);
			const char *end = pos + point;
			parse_domain(pos, end, param);
			param.uri = string(pos + point + 1);
			//the left all is domain
			int hlen = (int)(posend - pos + 1);
			param.host = string(pos,hlen);
			const char *end = pos + hlen - 1;
			parse_domain(pos, end, param);
			param.uri = "/";
			return 0;
		return 0;
	string GetParam(const char *param)
		int point = -1;
		const char *ustart = v_param.uri.c_str();
		const char * start = string_find_pos(ustart, "?");
		if (start != NULL)
			++start;
			//?a=abc&b=ddd
			string par = param;
			par +="=";
			start = string_find_pos(start, par.c_str());
			if (start != NULL )
				const char * j = start - 1;
				char c = *j;
				if (c == '&' || c == '?')
					start += par.length();
					const char * end = string_find_pos(start, "&");
					if (end != NULL)
						return string(start, end);
					return string(start);
		return "";
	void SetUrl(const char *url)
		v_param.clear();
		ParseUrl(url, v_param);
int main()
	cout << "======================================================"<<endl;
	const char * url = "rtp://234.5.6.7:8000/live/1000/s1?a=abc&b=ddd";
	cout << url << endl;
	TParseUrl parse(url);
	cout << parse.v_param.protocol << endl;
	cout << parse.v_param.host<< endl;
	cout << parse.v_param.port << endl;
	cout << parse.v_param.uri << endl;
	cout<<  parse.GetParam("a")<<endl;
	cout << parse.GetParam("b") << endl;
	cout << endl << endl;
	cout << "======================================================"<<endl;
	url = "https://127.0.0.1:9001/abc/qianbo/ss?abc=qianbo&abcd=test";
	cout << url << endl;
	parse.SetUrl(url);
	cout << parse.v_param.protocol << endl;
	cout << parse.v_param.host << endl;
	cout << parse.v_param.port << endl;
	cout << parse.v_param.uri << endl;
	cout << parse.GetParam("c") << endl;
	cout << parse.GetParam("d") << endl;
	cout << parse.GetParam("abc") << endl;
	cout << parse.GetParam("abcd") << endl;
                    协议解析url用处http协议，rtp协议，rtmp协议，rtsp中解析url，很多语言都有封装的解析URL的工具类库，在c++ 写的server的中如果需要解析url，需要写一个高效率的解析封装方法。这里使用c++，仅仅使用c++ STL 的string 类 以及c++的封装特性，解析尽量使用了c的方式，以便于改进。比较和查找在url中查找字符串，如？，&amp;，等等static inline int judge_equeal(const char *pos, const char *comp
				备注:C++解析URL除了第三方库之外,还可以使用ParseURL,该函数定义在Shlwapi.h中,美中不足的是,无法解析出端口./************************************************************************/
/* Uri                                                     
				oneurl是一个C/C++语言开发的url解析以及标准化开源库，基于googleurl内核函数，主要功能：
a.解析url，可以得到协议（scheme）,主机名（host），端口（port），域名（Domain）,路径（path）,查询参数（query）.支持动态页面判断，路径深度等功能。
b.标准化Url，严格按照RFC文档规定的标准将不符合标准的Url标准化，包括pct编码。
c.具有参数去重，排序功能。
d.支持UTF-8和GBK编码格式。
互联网产品形形色色，有产品导向的，有营销导向的，也有技术导向的，但是
以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技
术含量的产品，如果不是唯一，至少也是其中之一。
经过十几年的发展，搜索引擎已经成为互联网的重要入口之一，Twitter联合创
始人埃文•威廉姆斯提出了“域名已死论”，好记的域名不再重要，因为人们会
通过搜索进入网站。搜索引擎排名对于中小网站流量来说至关重要。了解搜索
引擎简单界面背后的技术原理其实对每一个希望在互联网行业有所建树的信息
技术人员都很重要。
1.1. 搜索引擎
作为互联网应用中最具技术含量的应用之一，优秀的搜索引擎需要复杂的架构
和算法，以此来支撑对海量数据的获取、 存储，以及对用户查询的快速而准确
地响应。 从架构层面，搜索引擎需要能够对以百亿计的海量网页进行获取、 存
储、 处理的能力，同时要保证搜索结果的质量。 如何获取、 存储并计算如此海WEBCRAWLER 网络爬虫实训项目 3
量的数据？如何快速响应用户的查询？如何使得搜索结果尽可能满足用户对信
息的需求？这些都是搜索引擎的设计者不得不面对的技术挑战。
下图展示了一个通用搜索引擎的基本结构。商业级别的搜索引擎通常由很多相
互独立的模块组成，各个模块只负责搜索引擎的一部分功能，相互配合组成完
整的搜索引擎：
搜索引擎的信息源来自于互联网网页，通过“网络爬虫” 将整个“互联网” 的
信息获取到本地，因为互联网页面中有相当大比例的内容是完全相同或者近似
重复的，“网页去重”模块会对此做出检测，并去除重复内容。
在此之后，搜索引擎会对网页进行解析，抽取网页主体内容，以及页面中包含
的指向其它页面的所谓超链接。 为了加快用户查询的响应速度，网页内容通过
“倒排索引”这种高效查询数据结构来保存，而网页之间的链接关系也会予以
保存。之所以要保存链接关系，是因为这种关系在网页相关性排序阶段是可利
用的，通过“链接分析”可以判断页面的相对重要性，对于为用户提供准确的
搜索结果帮助很大。
由于网页数量太多，搜索引擎不仅需要保存网页的原始信息，还要保存一些中
间处理结果，使用单台或者少量的计算机明显是不现实的。 Google等商业搜索
引擎提供商，为此开发了一整套云存储与云计算平台，使用数以万计的普通PCWEBCRAWLER 网络爬虫实训项目 4
搭建了海量信息的可靠存储与计算架构，以此作为搜索引擎及其相关应用的基
础支撑。优秀的云存储与云计算平台已经成为大型商业搜索引擎的核心竞争
以上所述是搜索引擎如何获取并存储海量的网页相关信息。这些功能因为不需
要实时计算，所以可以被看作是搜索引擎的后台计算系统。搜索引擎的首要目
标当然是为用户提供准确而全面的搜索结果，因此响应用户查询并实时提供准
确结果便构成了搜索引擎的前台计算系统。
当搜索引擎接收到用户的查询请求后，首先需要对查询词进行分析，通过与用
户信息的结合，正确推导出用户的真实搜索意图。 此后，先在“Cache系统”
所维护的缓存中查找。搜索引擎的缓存存储了不同的搜索意图及其相对应的搜
索结果。如果在缓存中找到满足用户需求的信息，则直接将搜索结果返回给用
户。这样既省掉了重复计算对资源的消耗，又加快了整个搜索过程的响应速
度。而如果在缓存中没有找到满足用户需求的信息，则需要通过“网页排
序”，根据用户的搜索意图，实时计算哪些网页是满足用户需求的，并排序输
出作为搜索结果。 而网页排序最重要的两个参考因素，一个是“内容相似
性”，即哪些网页是和用户的搜索意图密切相关的；一个是网页重要性，即哪
些网页是质量较好或相对重要的，而这往往可以从“链接分析”的结果中获
得。综合以上两种考虑，前台系统对网页进行排序，作为搜索的最终结果。
除了上述功能模块，搜索引擎的“反作弊”模块近年来越来越受到重视。搜索
引擎作为互联网用户上网的入口，对于网络流量的引导和分流至关重要，甚至
可以说起着决定性的作用。因此，各种“作弊”方式也逐渐流行起来，通过各
种手段将网页的搜索排名提前到与其网页质量不相称的位置，这会严重影响用
户的搜索体验。所以，如何自动发现作弊网页并对其给于相应的惩罚，就成了
搜索引擎非常重要的功能之一。
1.2. 网络爬虫
通用搜索引擎的处理对象是互联网网页，截至目前的网页数量数以百万计，所
以搜索引擎首先面临的问题就是如何能够设计出高效的下载系统，将如此海量
的网页数据传送到本地，在本地形成互联网网页的镜像备份。 网络爬虫即扮演
如此角色。 它是搜索引擎中及其关键的基础构件。WEBCRAWLER 网络爬虫实训项目 5
网络爬虫的一般工作原理如下图所示：
 从互联网网页中选择部分网页的链接作为“种子URL”，放入“待抓取URL
 爬虫从“待抓取URL队列”中依次“读取URL”；
 爬虫通过“DNS解析” 将读到的URL转换为网站服务器的IP地址；
 爬虫将网站服务器的IP地址、通信端口、网页路径等信息交给“网页下载”
 “网页下载”器负责从“互联网”上下载网页内容；
 对于已经下载到本地的网页内容，一方面将其存储到“下载页面库” 中，等
待建立索引等后续处理，另一方面将其URL放入“已抓取URL队列”，后者显
然是为了避免网页被重复抓取；
 对于刚刚下载到本地的网页内容，还需要从中“抽取URL”；
 在“已抓取URL队列”中检查所抽取的URL是否已被抓取过；
 如果所抽取的URL没有被抓取过，则将其排入“待抓取URL队列” 末尾，在
之后的抓取调度中重复第步，下载这个URL所对应的网页。 如此这般，形成WEBCRAWLER 网络爬虫实训项目 6
循环，直到“待抓取URL队列”空，这表示爬虫已将所有能够被抓取的网页尽
数抓完，完成一轮完整的抓取过程。
以上所述仅仅是网络爬虫的一般性原理，具体实现过程中还可以有很多优化的
空间，比如将“网页下载”以多线索（进程或线程）并发的方式实现，甚至将
“DNS解析”也处理为并发的过程，以避免爬虫系统的I/O吞吐率受到网站服
务器和域名解析服务器的限制。而对于“已抓取URL队列”则可以采用布隆排
重表的方式加以优化，以降低其时间和空间复杂度。
2. 总体架构
本项目总体架构如下图所示：
Configurator
超文本传输协议响应
HttpResponse
多路输入输出
MultiIo
插件管理器
PluginMngr
Socket
字符串工具包
StrKit
统一资源定位符队列
UrlQueues
WebCrawler
原始统一资源定位符
RawUrl
超文本传输协议响应包头
HttpHeader
域名解析线程
DnsThread
解析统一资源定位符
DnsUrl
RecvThread
布隆过滤器
BloomFilter
最大深度插件
MaxDepth
域名限制插件
DomainLimit
超文本传输协议响应包头过滤器插件
HeaderFilter
超文本标记语言文件存储插件
SaveHTMLToFile
图像文件存储插件
SaveImageToFile
SendThreadWEBCRAWLER 网络爬虫实训项目 7
2.1. 基础设施
2.1.1. 字符串工具包(StrKit)
常用字符串处理函数。
2.1.2. 日志(Log)
分等级，带格式的日志文件打印。
2.1.3. 配置器(Configurator)
从指定的配置文件中加载配置信息。
2.1.4. 多路输入输出(MultiIo)
封装epoll多路I/O系统调用，提供增加、删除和等待操作接口。
2.1.5. 插件管理器(PluginMngr)
加载插件并接受其注册，维护插件对象容器并提供调用其处理函数的外部接
2.2. 网络通信
2.2.1. 哈希器(Hash)
封装各种哈希算法函数。
2.2.2. 布隆过滤器(BloomFilter)
基于布隆算法，对欲加入队列的原始统一资源定位符进行过滤，以防止已被抓
取过的URL再次入队，降低冗余开销同时避免无限循环。
2.2.3. 原始统一资源定位符(RawUrl)
提供原始形态的统一资源定位符字符串的简单包装，以及规格化等辅助支持。
2.2.4. 解析统一资源定位符(DnsUrl)
将原始形态的统一资源定位符字符串，解析为服务器域名、资源路径、服务器
IP地址，乃至服务器通信端口等。WEBCRAWLER 网络爬虫实训项目 8
2.2.5. 统一资源定位符队列(UrlQueues)
封装原始统一资源定位符队列和解析统一资源定位符队列，提供线程安全的入
队、出队操作，通过统一资源定位符过滤器排重，同时支持基于正则表达式的
统一资源定位符抽取功能。
2.2.6. 套接字(Socket)
发送/接收超文本传输协议请求/响应，发送成功将套接字描述符加入多路I/O，
接收成功抽取统一资源定位符压入队列。
2.2.7. 超文本传输协议响应包头(HttpHeader)
状态码和内容类型等关键信息。
2.2.8. 超文本传输协议响应(HttpResponse)
服务器统一资源定位符和超文本传输协议包头、包体及长度的简单封装。
2.3. 流程控制
2.3.1. 域名解析线程(DnsThread)
从原始统一资源定位符队列中弹出RawUrl对象，借助域名解析系统（DNS）获
取服务器的IP地址，构造DnsUrl对象压入解析统一资源定位符队列。
2.3.2. 发送线程(SendThread)
通过WebCrawler对象启动新的抓取任务，从解析统一资源定位符队列中弹出
DnsUrl对象，向HTTP服务器发送HTTP请求，并将套接字描述符放入MultiIo
2.3.3. 接收线程(RecvThread)
由WebCrawler对象在从MultiIo对象中等到套接字描述符可读时动态创建，通
过Socket对象接收超文本传输协议响应。WEBCRAWLER 网络爬虫实训项目 9
2.3.4. 网络爬虫(WebCrawler)
代表整个应用程序的逻辑对象，构建并维护包括日志、配置器、多路I/O、插件
管理器、统一资源定位符队列、域名解析线程等在内的多个底层设施，提供诸
如初始化、执行多路输入输出循环、启动抓取任务等外部接口。
2.3.5. 主线程(main)
主函数，处理命令行参数，初始化应用程序对象，进入多路I/O循环。
2.4. 外围扩展
2.4.1. 最大深度插件(MaxDepth)
根据配置文件的MAX_DEPTH配置项，对被抓取超链接的最大递归深度进行限
2.4.2. 域名限制插件(DomainLimit)
根据配置文件的INCLUDE_PREFIXES和EXCLUDE_PREFIXES配置项，对被抓取
超链接的前缀进行限制。
2.4.3. 超文本传输协议响应包头过滤器插件(HeaderFilter)
根据配置文件的ACCEPT_TYPE配置项，对超文本传输协议响应的内容类型进行
2.4.4. 超文本标记语言文件存储插件(SaveHTMLToFile)
将用超文本标记语言描述的页面内容保存到磁盘文件中。
2.4.5. 图像文件存储插件(SaveImageToFile)
将页面内容中引用的图像资源保存到磁盘文件中。
3. 工作流程
3.1. 主事件流
进程入口函数在进行必要的命令行参数处理和系统初始化以后，进入网络爬虫
的多路输入输出循环，一旦发现某个与服务器相连的套接字有数据可读，即创WEBCRAWLER 网络爬虫实训项目 10
建接收线程，后者负责抓取页面内容，而前者继续于多路输入输出循环中等待
其它套接字上的I/O事件。
3.2. 解析事件流
独立的域名解析线程实时监视原始统一资源定位符队列的变化，并将其中的每
一条新近加入的原始统一资源定位符，借助域名解析系统转换为解析统一资源
定位符，并压入解析统一资源定位符队列。
3.3. 发送事件流
不断从解析统一资源定位符队列弹出解析统一资源定位符，创建套接字，根据
服务器的IP地址和通信端口发起连接请求，建立TCP连接，发送超文本传输协
议请求包，并将套接字放入多路输入输出对象，由主事件流等待其数据到达事
3.4. 接收事件流
每个超文本传输线程通过已明确有数据可读的套接字接收来自服务器的超文本
传输协议响应，并交由统一资源定位符队列进行超链接抽取和布隆排重过滤，
直至压入原始统一资源定位符队列。在压入原始统一资源定位符队列之前，以
及接收到超文本传输协议包头和包体之后，分别执行统一资源定位符插件、超
文本传输协议包头插件和超文本标记语言插件的处理过程。
以上四个事件流，需要平行且独立地并发运行，并在共享资源和执行步调上保
持适度的同步。
4. 目录结构
本项目的目录结构如下所示：
WebCrawler/
├── bin/
│ ├── WebCrawler
│ ├── WebCrawler.cfg
│ └── WebCrawler.scr
├── docs/
│ ├── 概要设计.pdfWEBCRAWLER 网络爬虫实训项目 11
│ └── 详细设计.pdf
├── download/
├── plugins/
│ ├── DomainLimit.cpp
│ ├── DomainLimit.h
│ ├── DomainLimit.mak
│ ├── DomainLimit.so
│ ├── HeaderFilter.cpp
│ ├── HeaderFilter.h
│ ├── HeaderFilter.mak
│ ├── HeaderFilter.so
│ ├── MaxDepth.cpp
│ ├── MaxDepth.h
│ ├── MaxDepth.mak
│ ├── MaxDepth.so
│ ├── SaveHTMLToFile.cpp
│ ├── SaveHTMLToFile.h
│ ├── SaveHTMLToFile.mak
│ ├── SaveHTMLToFile.so
│ ├── SaveImageToFile.cpp
│ ├── SaveImageToFile.h
│ ├── SaveImageToFile.mak
│ ├── SaveImageToFile.so
│ └── mkall
└── src/
├── BloomFilter.cpp
├── BloomFilter.h
├── Configurator.cpp
├── Configurator.h
├── DnsThread.cpp
├── DnsThread.h
├── Hash.cpp
├── Hash.h
├── Http.h
├── Log.cpp
├── Log.h
├── Main.cpp
├── Makefile
├── MultiIo.cpp
├── MultiIo.h
├── Plugin.h
├── PluginMngr.cpp
├── PluginMngr.h
├── Precompile.h
├── RecvThread.cpp
├── RecvThread.h
├── SendThread.cpp
├── SendThread.h
├── Socket.cpp
├── Socket.hWEBCRAWLER 网络爬虫实训项目 12
├── StrKit.cpp
├── StrKit.h
├── Thread.cpp
├── Thread.h
├── Url.cpp
├── Url.h
├── UrlFilter.h
├── UrlQueues.cpp
├── UrlQueues.h
├── WebCrawler.cpp
└── WebCrawler.h
其中bin目录存放可执行程序文件、启动画面文件和配置文件，docs目录存放
项目文档，download目录存放爬虫下载的网页文件和图像文件，plugins目录
存放扩展插件的源代码和共享库文件，src目录存放项目主体部分的源代码文
在教学环境下，以上目录结构可分别放在teacher和student两个子目录中。其
中teacher目录包含完整的程序源码和资料文档，以为学生开发时提供参考和借
鉴。 student目录中的源代码是不完整的，部分类或者函数的实现只给出了基
本框架，但代码中的注释和teacher目录下对应的部分完全相同，其中缺失的内
容，需要学生在理解整体设计思路和上下文逻辑的前提下予以补全。需要学生
参与补全的源代码文件详见开发计划。
5. 开发计划
本项目拟在四个工作日内完成：
工作日 模块 子模块 代码文件
第一天 基础设施
Precompile
Precompile.h
字符串工具包
StrKit
StrKit.h
StrKit.cpp
Log.h
Log.cpp
Configurator
Configurator.h
Configurator.cppWEBCRAWLER 网络爬虫实训项目 13
多路输入输出
MultiIo
MultiIo.h
MultiIo.cpp
Plugin
Plugin.h
插件管理器
PluginMngr
PluginMngr.h
PluginMngr.cpp
第二天 网络通信
Hash.h
Hash.cpp
统一资源定位
符过滤器接口
UrlFilter
UrlFilter.h
布隆过滤器
BloomFilter
BloomFilter.h
BloomFilter.cpp
原始统一资源定位符
RawUrl
Url.h
解析统一资源定位符
DnsUrl Url.cpp
统一资源定位符队列
UrlQueues
UrlQueues.h
UrlQueues.cpp
Socket
Socket.h
Socket.cpp
超文本传输协
议响应包头
HttpHeader Http.h
超文本传输协议响应
HttpResponse
第三天 流程控制
Thread
Thread.h
Thread.cpp
域名解析线程
DnsThread
DnsThread.h
DnsThread.cpp
SendThread
SendThread.h
SendThread.cppWEBCRAWLER 网络爬虫实训项目 14
RecvThread
RecvThread.h
RecvThread.cpp
WebCrawler
WebCrawler.h
WebCrawler.cpp
Main.cpp
Makefile
Makefile
第四天 外围扩展
最大深度插件
MaxDepth
MaxDepth.h
MaxDepth.cpp
MaxDepth.mak
域名限制插件
DomainLimit
DomainLimit.h
DomainLimit.cpp
DomainLimit.mak
超文本传输协议响
应包头过滤器插件
HeaderFilter
HeaderFilter.h
HeaderFilter.cpp
HeaderFilter.mak
超文本标记语言
文件存储插件
SaveHTMLToFile
SaveHTMLToFile.h
SaveHTMLToFile.cpp
SaveHTMLToFile.mak
图像文件存储插件
SaveImageToFile
SaveImageToFile.h
SaveImageToFile.cpp
SaveImageToFile.cpp
mkall
mkall
其中被突出显示的代码文件中，包含需要学生添加的内容，注意源文件中形
如“// 此处添加代码”的注释。WEBCRAWLER 网络爬虫实训项目 15
6. 知识扩展
为了能在实训环节，进一步强化学生独立思考、独立解决问题的能力，本项目
有意涵盖了一些前期课程中不曾涉及或只作为一般性了解的知识和技巧。具体
 预编译头文件
 std::string
 变长参数表
 基于epoll的多路I/O
 哈希算法和布隆表
 URL、 DNS、 HTTP和HTML
 正则表达式
 线程封装
 精灵进程和I/O重定向
 Makefile
对于上述内容，建议项目指导教师根据学生的接受能力，结合项目中的具体应
用，在项目正式启动之前，先做概要性介绍，同时提供进一步详细学习和研究
的线索，包括man手册、参考书、网络链接或其它媒体资源，尽量让学生通过
自己的实践和探索找到解决问题的方法，这才是项目实训的意义所在！
e.g http://my-awsome.website/welcome?name=luke&job=dev
import { allQueryStrings, queryString } from 'get-query-strings'
const params = allQueryStrings()
const params2 = allQueryStrings('?a=1&b=2')
const name = queryString('name'),
const name2 = queryString('name', '?name=luke'),
Output :
console.log(params)
  name: luke, 
  job: dev
console.log(params
				HTQL-超文本查询语言
超文本查询语言（HTQL）是用于HTML，XML和纯文本文档的查询和转换的语言。 HTQL使用C ++开发，具有快速有效的数据提取算法。 HTQL可用于：
 从HTML页面提取数据
通过HTTP协议检索HTML页面
修改HTML页面
Python安装
 python setup.py install
Python范例
一个从链接中提取URL和文本的简单示例。
 import htql
page="<a>1</a><a>2</a><a>3</a>"
query="<a>:href,tx"
for url, text in htql.query(page, query): 
    print(url, text)
使用HTQL正则表达式从美国地址解析状态和邮政编码的另一个示例：
#include <iostream>
/* data: "http://www.gmail.com:443/path/test.cgi?name=value&name2=value2 */
static void __get_host_from_url(char *buf, size_t size, const char *url)
    const char *ptr1, *ptr2;
    size_t n;
    buf[0] = 0;
1.网络爬虫爬网页
从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中 开始广度优先遍历队列 对每个出队的url提取需要的信息(怎么解析HTML) 对从网页中爬取到的每一个url判断是否重复，若不重复则入列。(怎么url去重)
2.初始化系统
从配置文件中读系统信息，例如服务器ip、端口号、页面文件位置、停用词文件位置等。
3.建索引
在网页库中每找到一个查询词同时得到偏移量，存入索引文件中。
4.网页去重并存于内存中
用top10和特征码LCS两种方法实现，在内存中的结果集: >
5.网页文本聚类
K-means算法
6.提供查询服务
#include #include 
int url2domain(const std::string &url, std::string &domain, unsigned &port)
	int ret = -1;
	//使用迭代器拆分字符
				在访问网页过程中，为了识别所做操作或者访问对象的编号，大多是用Get方式进行提交网页。所以就有我们经常看到的url，比如http://longzhu.com/channels/speed?from=figameindex。
那么在url中的参数如何获取呢，在ASP.NET中是通过 Request["from"] 获取的，如果参数不存在或没有该参数，则返回null，如果存在就可以将返回结果转换成相应类型，然后进行相应处理。
作者最近在学习C++11中的正则表达式，所以想用C++中的正则，实现相应功能。下面
int main() {
    std::string url = "wss://example.com:8080/path?query=123";
    std::regex pattern(R"(wss://([^:/]+)(?::(\d+))?(/[^?]+)?(\?[^#]+)?)");
    std::smatch match;
    if (std::regex_match(url, match, pattern)) {
        std::string host = match[1].str();
        std::string port = match[2].str();
        std::string path = match[3].str();
        std::string query = match[4].str();
        std::cout << "Host: " << host << std::endl;
        std::cout << "Port: " << port << std::endl;
        std::cout << "Path: " << path << std::endl;
        std::cout << "Query: " << query << std::endl;
    } else {
        std::cout << "Invalid WSS URL" << std::endl;
    return 0;
这段代码将会解析WSS URL，并将其中的主机、端口、路径和查询参数打印出来。你可以根据需要进行进一步处理和使用这些提取出的部分。当然，你也可以根据实际需求自定义正则表达式的模式。
希望这个例子能帮到你！如果还有其他问题，请随时提问。