Pandas+ SLS SQL：融合灵活性和高性能的数据透视-阿里云开发者社区

Pandas是什么

Pandas是一个十分强大的python数据分析工具，也是各种数据建模的标准工具。Pandas擅长处理数字型数据和时间序列数据。Pandas的第一大优势在于，封装了一些复杂的代码实现过程，只需要调用接口就行了，避免了编写大量的代码。Pandas的第二大优势在于灵活性，可以实现自动化批量化处理复杂的逻辑，这些工作是Excel等工具是无法完成的。因而Pandas介于Excel和自主编写程序之间，兼具灵活性和简洁性的数据分析工具。

在输入上，Pandas支持读取多种格式的文件，包括csv、orc、xml、json，也支持读取分布式文件系统HDFS，此外还支持通过jdbc协议读取mysql或兼容mysql协议的数仓。输入的数据会转换成内存中的数据结构DataFrame，之后的数据分析就是围绕着DataFrame进行。

在输出上，pandas可以实现非常震撼的可视化效果，对接众多赏心悦目的可视化库，可以实现动态数据交互效果。

pandas毕竟是一种python脚本语言，性能上一般，只能处理少量数据，跟现代化的数仓的计算能力差别是比较大的。但是如此灵活的pandas分析，能否和数仓相结合，赋予数仓更灵活的数据分析能力，同时获得大规模数据的分析能力呢？

SQL语言的优势和缺点

SQL是目前使用最为广泛的数据分析语言，SQL自从1980年代在IBM研发出来之后，立即成为各种数据分析系统的标准语言。究其原因，SQL是一种声明式语法，用户只需要声明想要的结果，不必指定获取结果的过程。这种方式有两个好处，一方面，如何以最高性能最小代价获得计算结果，需要编写复杂的算法，乃至了解机器的硬件特性，这需要专门的数据库内核工程师才能做到；对于数据分析师而言，这个要求有点过于复杂。因而声明式语法，解放了数据分析师的工作量，降低了数据分析门槛，扩大了SQL的受众。另一方面，没有指定运行过程，则给了数据库内核工程师们更大的自由度去生成最佳的执行计划。这是SQL的优势。

SQL的理论基础来自于关系代数，任何一个操作的对象都是关系，任何操作的结果也是一个关系。关系+操作生成一个新的关系。任何时刻，用户都可以看到一个关系实体。这套极强的理论基础，可以让一个SQL语句无限扩展，在任意时刻都能获得一个关系，再附加一个操作，变成另外一个关系。

由于SQL是基于关系代数和关系模型，关系模型中的关系这个实体，我们可以把它想象成一个二维的表格包含多行多列，行数无限制，而列数则是有限制的。行数是动态的，可以是0行，也可以是无限行。列数则是静态的，不可变更的，不管有无数据，都是固定的列数输出。静态列的这种方法，也限制了SQL在一些场景的应用。两个典型的场景是矩阵转置或者生成透视表（交叉表）。这两种场景下，列的个数都是动态的。因而SQL需要部分借助于编程才能实现完整的数据分析。

SLS SQL的优势

SQL只是一个语法表现成，是用户和数仓系统交互的语言。而数仓的真正强大之处在于它的内核。SLS日志数仓，采用SQL为语法接口，借助于云原生的分布式架构，可以实现query级别的弹性分析能力，可以实现单次分析千亿条数据的能力。

Pandas具备分析灵活性，SLS具备强大的SQL分析能力。两者融合，既能享受SLS强大的SQL分析能力，又能借助Pandas的灵活的数据分析和分析库。那么两者怎么结合呢？

Pandas连接SLS 做融合分析

Pandas支持jdbc接口读取数据，SLS也支持jdbc协议。因而Pandas可以通过jdbc协议连接SLS。对于分析任务中的比较重的计算，通过SQL传递给SLS计算；对于比较灵活的分析、SQL完成不了的分析，则在Pandas上做二次分析和可视化。例如构建透视表或者交叉表：先通过SQ L完成两个维度的交叉计算，这个过程往往计算量比较大；再通过Pandas完成行列转换，展示成二维表。

一个例子：

import numpy as np

import pandas as pd

import pymysql

# sql 命令

slshost=""

username=""

password=""

dbname="" # project is database

sql_cmd = "select method,status ,count(1) as pv from access_log group by method, status limit 1000"

con = pymysql.connect(host=slshost, port=10005,user=username, password=password, database=dbname, charset='utf8', use_unicode=True)

data = pd.read_sql(sql_cmd, con)

tab=pd.pivot_table(data,values="pv",index="status",columns="method" )

print(tab)

例子中的SQL，分析nginx访问日志，计算method和status两个维度的pv。再调用pandas的pivot_table函数构建透视表。

执行结果如下图：

SQL、Pandas和Spark：如何实现数据透视表？

数据透视表是一个很重要的数据统计操作，最有代表性的当属在Excel中实现（甚至说提及Excel，个人认为其最有用的当属三类：好用的数学函数、便捷的图表制作以及强大的数据透视表功能）。所以，今天本文就围绕数据透视表，介绍一下其在SQL、Pandas和Spark中的基本操作与使用，这也是沿承这一系列的文章之一。

原文:你真的会玩SQL吗？透视转换透视转换是一种行列互转的技术，在转过程中可能执行聚合操作，应用非常广泛。本章与你真的会玩SQL吗？数据聚合内容比较重要，还涉及到你真的会玩SQL吗？Case的用法的内容，都可以一起看。

今天抽一点时间来看看透视和逆透视语句，简单的说就是行列转换。假设一个销售表中存放着产品号，产品折扣，产品价格三个列，每一种产品号可能有多种折扣，每一种折扣只对应一个产品价格。今天抽一点时间来看看透视和逆透视语句，简单的说就是行列转换。假设一个销售表中存放着产品号，产品折扣，产品价格三个列，每一种产品号可能有多种折扣，每一种折扣只对应一个产品价格。下面贴出建表语句和插入数据语句。在Pandas中通过时间频率来汇总数据的三种常用方法

当我们的数据涉及日期和时间时，分析随时间变化变得非常重要。Pandas提供了一种方便的方法，可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。

pandas数据处理高级系列001-如何用一行代码优雅的删除一行数据中不包含特定字符串的行

Python库函数pandas读取excel数据

pandas 读取excel文件使用的是 read_excel方法。本文将详细解析read_excel方法的常用参数，以及实际的使用示例