'\n'
在直接使用
.replace()
对dataframe相关列进行转换时,可能因为转义的问题无法转换成功。网上目前能查到的有教程,有使用
.rstrip()
成功解决的,但是仅能处理
‘\n’
出现在字符串最末端的情况。
于是我自己试了一下,发现可以用 apply函数解决,相当于一行一行遍历数据集里的reviews内容,然后每次对一行进行处理,应用到整个数据集上:
首先从数据集随便取一行,试试能否转换成功
review_vote['review'][0].replace("\n", " ")
成功后用apply函数对整一列进行处理。
先将该列转换成 string类型,不然有些评论只有数字什么的会报错。
review_vote['review'] = review_vote['review'].astype(str)
review_vote['review'] = review_vote['review'].apply(lambda x: x.replace("\n", " "))
类似的用法还可以根据已有数据创建新列:
review_vote['vote'] = review_vote['voted_up'].apply(lambda x: 1 if x is True else 0)
现在这个发文助手限流是什么意思…
dataframe是一种表格型的数据存储结构,可以看作是几个serie的集合。dataframe既有行索引,也有列索引。
以下代码环境为google colab/jupyter notebook。
接下来就对dataframe的基本使用进行整理。
dataframe也从属于pandas模块,因此还是老规矩,先import pandas。
import pandas as pd
import numpy as np
1. dataframe的创建
dataframe的创建有很多方法,下面列举了几种主要的创建
pandas 中的 drop 方法是很明智的数据清理的方法,它的好处在于:它不改变原有的 df 中的数据,而是返回另一个新的 DataFrame 来存放删除后的数据。
一、drop 的用法
import pandas as pd
import numpy as np
a = list(range(1, 11))
a_reshape = np.array(a).reshape(2, 5).T
b = pd.DataFrame(a_reshape)
print(b)
1. df.d...
一、DataFrame数据准备
增、删、改、查的方法有很多很多种,这里只展示出常用的几种。
参数inplace默认为False,只能在生成的新数据块中实现编辑效果。当inplace=True时执行内部编辑,不返回任何值,原数据发生改变。
import numpy as np
import pandas as pd
...
十三卝归一:
ERROR: compilation failed for package ‘Hmisc’
smlwqqjy:
ERROR: compilation failed for package ‘Hmisc’
night098: