以下代码示例,展示了如何读取Excel文件,确保特定列为字符串类型,并过滤包含特定值的行:
import pandas as pd
df = pd.read_excel('table.xlsx', dtype={'some_column': str})
check_value = 'your_check_value'
filtered_df = df[df['some_column'].str.contains(check_value, na=False)]
print(filtered_df)
-
读取Excel文件:
pd.read_excel('table.xlsx', dtype={'some_column': str})
:读取Excel文件,并将 some_column
列的数据类型设置为字符串。pd.read_excel('table.xlsx', converters={'some_column': str})
:读取Excel文件,并使用转换器将 some_column
列的数据类型转换为字符串。df['some_column'] = df['some_column'].astype(str)
:在读取Excel文件后,将 some_column
列的数据类型转换为字符串。
-
过滤包含特定值的行:
df[df['some_column'].str.contains(check_value, na=False)]
:过滤DataFrame,返回 some_column
列包含 check_value
的所有行。na=False
用于处理缺失值,避免它们导致错误。
当你pandas读取到数据,某一列(行)的原始数据,都是数字的形式:如 字符串:‘123’,7
我在这里处理了‘sid’这一列的数据,然后生成新的一个特征‘newf’,查看一下它的数据类型,可以知道它是一个object类型的
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入
欢迎使用Markdown编辑器
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
len() 获得string的长度
left() 拆分数组坐标的内容,往往是特殊符号的左边,或者是 文本和数字的分离
right() 拆分数组坐标的内容,往往是特殊符号的右边,或者是 文本和数字的分离
mid() 取中间一定位数的,截断字符串
今天我们主要解决以下实际问题:一份黑名单数据存储在excel中,由于数据量庞大,现需要通过pandas处理后再存入到excel中
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,主要数据结构为两个类:
DataFrame: 可以理解为表格,类似于Excel的表格 pandas.core.frame.DataFrame
Series: 表示单列。DataFrame包含多个列,即多个Series,每个Series都有名称。pandas.core.series.Series
import pandas as pd
data = pd.read_excel('data.xlsx',header=None,keep_default_na=False)
print(data)
参数keep_default_na=False即可是的空值处理为字符串