使用Hive的正则解析器RegexSerDe分析nginx日志_DataFlow范式的博客

相关文章推荐

暴走的茴香 · TypeScript中联合类型赋值null/ ...· 5 天前 ·

讲道义的鞭炮 · springboot mongodb ...· 3 天前 ·

逼格高的蛋挞 · Self-Host ASP.NET Web ...· 昨天 ·

酷酷的眼镜 · 报错无法发送具有此谓词类型的内容正文_无法发 ...· 昨天 ·

重感情的包子 · 用static定义静态全局变量 - ...· 昨天 ·

很酷的乌冬面 · 37年过去了，86版《西游记》还有多少演员在 ...· 7 月前 ·

爱吹牛的刺猬 · 兔年央视春晚只有6个独唱，赵丽颖、周深、毛不 ...· 1 年前 ·

踢足球的豌豆 · 还有跟《簪中录》类似的古风系漫画吗？ - 知乎· 1 年前 ·

朝气蓬勃的春卷 · 365整篇翻译失败问题 - ...· 1 年前 ·

冷冷的汉堡包 · 你好，李焕英 - ...· 1 年前 ·

2、使用Hive分析nginx日志，网站的访问日志部分内容为：

cat /home/hadoop/hivetestdata/nginx.txt
192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png HTTP/1.1" 200 1521 "http://write.blog.csdn.net/postlist" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"
183.60.212.153 - - [19/Feb/2015:10:23:29 +0800] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" "Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)"
这条日志里面有九列，每列之间是用空格分割的，
每列的含义分别是客户端访问IP、用户标识、用户、访问时间、请求页面、请求状态、返回文件的大小、跳转来源、浏览器UA。
我们使用Hive中的正则表达式匹配这九列：
([^ ]*) ([^ ]*) ([^ ]*) (\[.*\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")
于此同时我们可以在Hive中指定解析文件的序列化和反序列化解析器(SerDe)，并且在Hive中内置了一个org.apache.hadoop.hive.serde2.RegexSerDe正则解析器，我们可以直接使用它。
3、建表语句 CREATE TABLE logs
(
host STRING,
identity STRING,
username STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;
4、加载数据： load data local inpath '/home/hadoop/hivetestdata/nginx.txt' into table logs;
查询每小时的访问量超过100的IP地址： select substring(time, 2, 14) datetime ,host, count(*) as count
from logs
group by substring(time, 2, 14), host
having count > 100

sort by datetime, count;

首先对正则表达式、有限自动机、非确定性有限状态自动机、确定性有限状态自动机、汤普森构造法、汤普森提出的正则表达式搜索算法进行介绍，然后基于该算法，实现了一个正则表达式 解析器 通常情况下， Hive 导入的是单一分割符的数据。如果需要导入格式复杂一点的data，可以使用 hive 自导的 Regex S erD e来实现。 Regex S erD e类是 hive 自带的，使用正则表达式来支持复杂的data导入。在 hive 0.11中，自带了两个 Regex S erD e类： org.apache.Hadoop. hive .contrib.s erd e2. Regex S erD e; org.apach ANTLR 是 ANother Tool for Language Recognition的首字母，是一个语言类工具，主要充当翻译器、编译器、识别器、或者是分析器这样的一个角色，也就是将一些列规则翻译成特定语言代码(Java, C/C++, C#, Python, Ruby)的一个工具。说直白点就是定义语法规则文件—>生成特定语言解析规则文件的代码—>被特定的语言所识别，想想我们的 Hive -Sql 是不是就是这样的，不然SQL怎么转化成MR程序。Antlr (ANother Tool for Langua 1）用户接口：Client 2）元数据：Metastore （ hive 和HDFS之间的映射关系），包括：表名、表所属的数据库、字段等 · 元数据将 hive 中的表和HDFS中的路径做一个映射。 · 默认存储在自带的 derby 数据库（erby默认只能单用户）中，推荐使用 MySQL 存储 Metastore； 3）Hadoop 使用 HDFS 进行存储，使用 MapReduce 进行计算。 4）驱动器：Driver ★ （1） 解析器 ：将 SQL 转换成MR的任务需要的对应的元数据等准备工作； ..... 1. Hive 创建表时正则表达式与java代码中一致, Regex S erD e 中用\\来表示反转码create table inst_cn_3 (ip string,time string,mac string,lan string,ver string,lc string,pn string,reg string,vrf string,line string)ROW FORMAT S ERD E '... Hadoop生态圈 Hadoop生态圈包括HDFS 、MapReduce、Yarn三大核心外， Hive 、Hbase、Flume、Sqoop都是附属于Hadoop这个生态圈下工具 1.HDFS HDFS（Hadoop Distributed File System）是HDFS是一个分布式文件系统，他涉及hadoop生态圈中的数据存储，MapReduce计算模型基于存储在HDFS中的数据进行计算。 HDFS中文件在物理介质的存储方式是分块(block)存储,块大小是可以可以配置参数进行调配的(dfs.bloc 一、 hive 建表优化分区表：将表中的数据按照指定的规则份文件夹管理。分桶表：对 hive 表分桶可以将表中记录按分桶键（字段）的哈希值分散进多个文件中，这些小文件称为桶。桶以文件为单位管理数据。分区针对的是数据的存储路径，分桶针对的是数据文件。如果查询的维度是分桶字段，查询的时候先确定数据所在的桶，提升查询效率。进行join的时候，关联字段就是分桶字段，只有相同的桶之间的数据进行关联，从而提升关联效率。设置下set hive .enforce.bucketing=true set mapreduce.jo 正则表达式是一组字符，这些字符形成可以在字符串中搜索的模式。正则表达式可用于验证，例如验证信用卡号，用于搜索（即通过复杂的文本匹配）以及将匹配的文本替换为另一个字符串。它还具有强大的多语言支持-学习一次即可在多种编程语言中使用它。我见过很少有人对 regex 有所了解，并完全忽略了它。我不怪他们。 regex 的语法很复杂，并且会像那些命令行语言一样带来许多麻烦，只会更糟。但是，每件事...