str函数
即structure,紧凑的显示对象内部结构,即对象里有什么。
例如:当我们head数据的时候,若某列内容太多,则不会显示出来,而用str函数,便可在窗口中逐行显示数据中列的内容。
如下图,读取数据如下:
当使用head函数时,显示内容如下:
而使用了str函数之后,显示如下所示:
str函数即structure,紧凑的显示对象内部结构,即对象里有什么。例如:当我们head数据的时候,若某列内容太多,则不会显示出来,而用str函数,便可在窗口中逐行显示数据中列的内容。如下图,读取数据如下:当使用head函数时,显示内容如下:而使用了str函数之后,显示如下所示:
基本定制型
复制代码 代码如下:C.__init__(self[, arg1, …]) 构造器(带一些可选的参数)C.__new__(self[, arg1, …]) 构造器(带一些可选的参数);通常用在设置不变数据类型的子类。C.__del__(self) 解构器C.__
str
__(self) 可打印的字符输出;内建
str
()及print 语句C.__repr__(self) 运行时的字符串输出;内建repr() 和‘‘ 操作符C.__unicode__(self)b Unicode 字符串输出;内建unicode()
C.__call__(self, *args) 表示可调用的实例C.__
str
()
函数
的作用用英语来表示是:check classification of viriables,一般用于检查数据框当中有哪些数据,首先我们先引入一个“钻石”的数据看看,其中的代码如下所示:
> diamonds
# A tibble: 53,940 x 10
carat cut color clarity depth table price x ...
R语言
支持字符处理,内置了系列
函数
(grep、gsub等),但系列
函数
定义混乱,对使用者极不方便。
str
ingr包是专门用于字符处理的R包,
函数
定义简洁、使用方式统一,是使用率较高的R包。
str
ingr包中的大部分
函数
具有统一风格的命名方式,以
str
_开头,正则表达式也完全适用该包。
环境&r软件
win10 64bit
R 3.6.1
install.packages(...
library(
str
ingr)
3.
str
ingr的API介绍
str
ingr包1.0.0版本,一共提供了30个
函数
,方便我们对字符串处理。常用的字符串的处理以
str
_开头来命名,方便更直观理解
函数
的定义。我们可以根据使用习惯对
函数
进行分类:
字符串拼接
函数
str
_c: 字符串拼接。
str
_join: 字符串拼接,同
str
_c。
str
_trim: 去掉字符串的
patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1","Type2","Type1","Type1")
status <- c("Poor","Improved","Excellent","Poor")
patientdata <- data.frame(patientID,...
有时候使用
R语言
处理后的结果需要按照原先文件的名称进行输出保存,可以使用sub
str
函数
从原先文件中提取部分需要的信息,使用paste
函数
或
str
_c
函数
拼接输出的路径与输出的文件名、文件格式等。因为自己只是在使用中,
学习
了这三个
函数
,没有系统的
学习
过
R语言
,所以只能简单的介绍一下。首先,使用这三个
函数
,需要安装包sub
str
函数
可以从一段字符中,截取自己需要的字符。以我自己的使用过程为例:
我的原先文件名是一堆城市名称,我的城市名称是:xxxx.xlsx,我要提取的只是城市名称,所以我的代码是:,城市名称
> month.name
[1] "January" "February" "March" "April" "May" "June"
[7] "July" "August" "September" "October" "November" "December"
2、nchar与length
nchar返回向量中每个元素字符串的个数,length返回向量中元素的个数。
> nchar("word")
str
函数
和glimpse都可以方便我们查看数据框内的变量细节,但两者的显示,当数据结构为含列表的tibble时,有较大差别
以tidyverse库内置数据集starwars为例,其中变量flims、vehicles、starships元素均为list,不再是单一的数值或字符,当使用glimpse
函数
查看数据集时,显示为:
可以看到最下方三行,包括list的变量,概要显示清晰,而在该数据集上使用
str
函数
时:
(此处截图console输出的一头一尾)
明显看到,
str
函数
不仅仅展开tibble中的变量,
相关性分析是一种常见的数据分析方法,用于评估两个或多个变量之间的关系。在Python中,可以使用numpy和pandas库计算相关性矩阵。具体方法如下:
1. 导入需要的库和数据集:
```python
import numpy as np
import pandas as pd
data = pd.read_csv('data.csv')
2. 计算相关性矩阵:
```python
corr_matrix = data.corr()
3. 可视化相关性矩阵:
```python
import matplotlib.pyplot as plt
import seaborn as sns
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.show()
在
R语言
中,也可以使用cor
函数
计算相关性矩阵,代码如下:
data <- read.csv('data.csv')
corr_matrix <- cor(data)
library(corrplot)
corrplot(corr_matrix, method='circle')
以上是Python和
R语言
中计算和可视化相关性矩阵的基本方法。需要注意的是,相关性并不表示因果关系,仅仅是变量之间的关联程度。因此,在进行相关性分析时,需要结合实际情况和领域知识进行综合分析。
jupyter notebook 报错信息 ModuleNotFoundError: No module named jupyter_nbextensions_configurator
anaconda3 安装geopandas,以及依赖包shapely、gdal、pyproj、fiona
旋转小马: