curl
,全称为CommandLine URL命令行url,是在命令行下使用url语法工作的数据传输或文件传输的工具。开发人员经常使用它来调试接口或者下载文件。curl官网:
curl.haxx.se/
接下来我们将使用curl发送请求,并使用wireshark工具抓包分析每一条命令的内容。wireshark不了解的可以看文章底部,我的参考资料。
curl命令格式为:
curl [options...] <url>
可以查看curl的帮助如下图:
以下列举curl常用和炫酷的一些功能,不常用的请自己网上搜索。 使用-v选项可以查看curl发送请求的过程
不带选项的get请求
curl http://www.baidu.com
执行命令后,相当于使用get请求访问了百度首页,wireshark抓到的包如下,User-Agent为curl/7.49:
命令返回结果为百度的首页:
保存、下载文件
curl -o baidu.html http://www.baidu.com
-o(小写):可以将返回的结果保存到文件。当然也可以使用linux的
>>
重定向。
如下图,用浏览器打开下载后的文件,就是百度的首页。
当一个被请求页面移动到另一个站点时,curl默认不会自动重定向,使用-L选项会发送一个HTTP Loaction header作为请求,然后将请求重定向到新的地址上。如下,
curl http://www.jianshu.com
访问简书会提示已经重定向,我们加上-L选项,curl会重定向到正确的地址。
curl -L http://www.jianshu.com
post请求-x-www-form-urlencoded
post请求使用-d后面接post数据,默认的post请求编码为
application/x-www-form-urlencoded
,如下,往w3c的post测试网址
https://www.w3school.com.cn/example/jquery/demo_test_post.asp
发送post参数name和city,其会返回问候信息。
curl -d "name=huang&city=guangzhou" https://www.w3school.com.cn/example/jquery/demo_test_post.asp
以上w3c的网址是https,我改为fiddler安装证书使用代理抓https的包时报错,记录在此,以后深入学习https在来解决,报错如下
post请求-json格式
post请求有多种编码格式,常有的有上面默认的x-www-form-urlencoded,还是RESTFul风格接口经常使用的json传输。curl post json数据需要加请求头和数据。
curl -H 'Content-Type:application/json' -d '{"name":"huang"}' http://www.example.com
-H表示请求头,如果有多个请求头,可以使用多个-H指定,-d表示数据。
http动词
RESTFul风格的网站,一般除了get,post外,会设置多种http动词,如put,delete等,curl使用选项-X(大写)可以指定特定的动词。
curl -X DELETE http://www.example.com
模拟浏览器-User-Agent
模拟Chrome浏览器可以使用-A后面接User-Agent字符串:
curl -A "Mozilla/5.0 (Windows NT 10.0; Win64; x64)" http://www.baidu.com
如下,wireshark抓包后,User-Agent确实修改了。
curl -x 127.0.0.1:8888 http://www.google.com
使用代理服务器127.0.0.1:8888访问。如下,如果不使用代理,访问不到google,使用代理后,可以获取到数据。
结果如下,因为我使用的是韩国的代理服务器,所以返回的google首页是韩文。
这次走代理服务器,wireshark没有抓到http的包。
头部信息-cookie
curl不加选项的话,默认使用get请求输出返回的内容,如果需要保存请求头的信息,则要添加选项。
保存cookie,选项-c(小写):
curl -c cookie.txt http://www.baidu.com
使用cookie,选项-b:
curl -b cookie.txt http://www.baidu.com
头部信息-header
如果需要保存所有头部信息,如下。
curl -D http://www.baidu.com
分段下载合并
使用-r可以分段下载内容,最后用cat命令可以将分段的内容合并。如下,我将百度页面分为两部分下载,前0-1000字节为第一部分,剩下的为另一部分。下载完后合并。图片同理。
# 分段下载
curl -r 0-1000 -o baidu_1.html http://www.baidu.com
curl -r 1000- -o baidu_2.html http://www.baidu.com
# 合并文件
cat baidu* > baidu.html
复制代码
如下,第一部分只有一个百度的搜索框,将两部分合并后就是一个完整的百度首页了。 -r选项的原理是使用了http请求头Range,wireshark抓包如下。