await asyncio.sleep(1)
async with ClientSession() as session:
params = urllib.parse.urlencode({"addr": resp_node, "entity": resp_entity, "whoami": "tester", "overtime": 3})
url = req_url + "?%s" % params
print("REQ:", url)
async with session.get(url) as response:
response = await response.read()
print("RESP:", response)
2、POST请求
async def send_data():
params = {"a":"b"}
async with ClientSession() as session:
# 发送topic测试数据
header = {"Content-Type": "application/json;charset=UTF-8"}
async with session.post(writeCurveUrl + "/",
data=params, headers=header) as response:
response = await response.read()
print(response.decode())
1、GET请求import asyncioimport websocketsimport jsonfrom aiohttp import ClientSessionimport urllib.parseimport argparseasync def test_req(): await asyncio.sleep(1) async with ClientSession() as session: params = urllib.parse.urlencod
Python 模拟爬虫抓取知乎用户信息以及人际拓扑关系,使用scrapy爬虫框架,数据存储使用mongo数据库。
本地运行请注意:爬虫依赖mongo和rabbitmq,因此这两个服务必须正常运行和配置。为了加快下载效率,图片下载是异步任务,因此在启动爬虫进程执行需要启动异步worker,启动方式是进入zhihu_spider/zhihu目录后执行下面命令:
celery -A zhihu.tools.async worker --loglevel=info
爬虫项目部署:
进入zhihu_spider后执行```docker-compose up``` ,进入container后和本地运行方法相同,依次启动mongo、rabbitmq、异步任务、爬虫进程即可。
其它需要说明的问题:
爬虫框架从start\_requests开始执行,此部分会提交知乎主页的访问请求给引擎,并设置回调函数为post_login.
post\_login解析主页获取\_xsrf保存为成员变量中,并提交登陆的POST请求,设置回调函数为after\_login.
after\_login拿到登陆后的cookie,提交一个start\_url的GET请求给爬虫引擎,设置回调函数parse\_people.
parse\_people解析个人主页,一次提交关注人和粉丝列表页面到爬虫引擎,回调函数是parse\_follow, 并把解析好的个人数据提交爬虫引擎写入mongo。
parse\_follow会解析用户列表,同时把动态的人员列表POST请求发送只引擎,回调函数是parse\_post\_follow,把解析好的用户主页链接请求也发送到引擎,人员关系写入mongo。
parse\_post\_follow单纯解析用户列表,提交用户主页请求至引擎。
[进阶] - Python3 异步编程详解:https://blog.csdn.net/lu8000/article/details/45025987
参考:http://aosabook.org/en/500L/a-web-crawler-with-asyncio-coroutines.html
木风卜雨:https://blog.csdn.net...
对于有的网页,我们滑动滚轮或者点击下一页,我们发现网址url没有发生变化,我们称这些网页为动态网页。
因此,我们需要F12开发者工具,选中Network--XHR不断滑动滚轮或者点击下一页,我们就会发现网页中的内容就隐藏在XHR里面。
但要注意网页的
请求方式是GET还是
POST。
下面以今日头条图片网页和美团外卖评论网页作为对比进行分析。
所有的url都是XHR下的链接,去掉多余的参数。
有时我们可能会碰到这样一种情况,我们有一个功能,这个功能对外提供了一个http接口,我们需要对这个http接口发起请求才能启动这个服务,但是这个服务功能可能会执行很久,这样如果等功能执行结束再返回请求结果,那这个请求可能就超时了,
发起请求的客户端
1 import requests
3 req = requests.get("http://127.0.0.1:9898/re...
在
python 的众多 http
请求库中,大家最熟悉的就是 requests 库了,requests 库上手非常容易,适合入门学习。
如果平常工作中对发
请求不追求效率和并发的情况下,requests 完全可以满足大部分需求。但是想发大量的
请求,比如几万个
请求的时候,可能需要等待几个小时,requests 库就不能满足需求了。
初学者建议先学习requests 库,熟练掌握requests 库才能更好的学习 aiohttp
异步框架。
同步与
异步
requests只能发送同步
请求,aiohttp只能
简易基准测试工具
一个通用的基准测试工具依赖于tornado基于epoll模块、异步httpclient、多进程和python绘图包matplotlib、numpy为matlab 2D图形的高性能网络框架的特性。 当前版本支持get和post的http协议,项目还在为通用协议的扩展开发中,敬请关注后续更新。
这个客户端测试工具可以很容易地以少量的 CPU 和内存资源达到很高的压力水平。
源代码规模小,很容易实现其他协议的扩展。
比较完善的统计和图形输出。
支持自动邮件发送。
当前版本支持http,redis协议(redis协议目前不可用)。
更新记录:
1.0——基础版本。
1.1——增加邮件自动发送功能。
1.2——增加随机请求功能。
1.3——增加一键式服务功能,实现全自动基准测试和邮件发送。
2.0——支持redis协议。
from newio_requests import get , post
async def main ():
r = await get ( 'https://httpbin.org/get' )
print ( r . json ())
r = await post ( 'https://httpbin.org/post' , json = { 'hello' : 'world' })
print ( r . json ())
run ( main )
需要Python 3.6以上版本。
pip install newio-requests
正在进行中,尚未准备好生产!
发出请求
在URL中传递参数