Pandas 提取单元格中的文字并进行切片处理_pandas 一列的数据是否为汉字_勤奋的大熊猫的博客

相关文章推荐

含蓄的枇杷 · C# WinForm ...· 1 月前 ·

逼格高的投影仪 · MultiRow中文版技术白皮书 - ...· 1 月前 ·

勤奋的充电器 · 如何在Excel ...· 3 周前 ·

有情有义的卤蛋 · OPPO这样设置，让浏览器体验更好· 2 年前 ·

胡子拉碴的豆腐 · python 列表反转使用递归-掘金· 2 年前 ·

大力的长颈鹿 · C#中静态变量、静态方法的说明 - ...· 2 年前 ·

比如我们有如下的 Excel 数据：
在这里插入图片描述
现在我们想要提取其中付款时间列中的内容，并且仅截取出发货的当天具体时间。我们可以使用 .str.slice() 来解决这一问题，代码如下：

import pandas as pd
file = pd.read_excel(r"C:\Users\15025\Desktop\uncle\debug.xlsx")
time = file["付款时间"].str.slice(11, 19)
print(time)
result:
0     23:57:14
1     23:47:16
2     23:47:15
3     23:43:14
4     23:40:30
5     23:28:40
6     23:28:44
7     23:25:42
8     23:23:57
9     23:22:11
10    23:21:47
Name: 付款时间, dtype: object
可以看到，我们已经成功截取出了其中的时间信息。上述方法是比较pandas的写法。而我们还可以用另一种方法替代，代码如下： 
import pandas as pd
file = pd.read_excel(r"C:\Users\15025\Desktop\uncle\debug.xlsx")
for i in range(len(file["付款时间"])):
    print(file["付款时间"][i][11:19])
result:
23:57:14
23:47:16
23:47:15
23:43:14
23:40:30
23:28:40
23:28:44
23:25:42
23:23:57
23:22:11
23:21:47
可以看到，我们也成功地获取到了我们想要的信息，但是我们使用了循环。虽然速度感觉也不慢，还需要大量数据测试才能说明两种方法的优劣性。目前推荐使用第一种pandas的内置方法。 
那么如果我们想要对最后一行数据进行处理呢？可以使用如下代码： 
import pandas as pd
file = pd.read_excel(r"C:\Users\15025\Desktop\uncle\debug.xlsx")
time = file.iloc[-1].tolist()
time1 = file.values[-1]
print(time)
print(time1)
['SXDD202112212321341427301514', '2021-12-21 23:21:34', '2021-12-21 23:21:47', '2021122122001498451403927933', 'G202112212321334217301915']
['SXDD202112212321341427301514' '2021-12-21 23:21:34'
 '2021-12-21 23:21:47' '2021122122001498451403927933'
 'G202112212321334217301915']
可以看到我们成功地将最后一行的数据转化为了列表对象，接下来就可以正常的使用列表切片来获取我们需要的数据了。 
码字不易，如果大家觉得有用，请高抬贵手给一个赞让我上推荐让更多的人看到吧~
                    比如我们有如下的Excel数据：现在我们想要提取其中付款时间列中的内容，并且仅截取出发货的当天具体时间。我们可以使用.str.slice()来解决这一问题，代码如下：import pandas as pdfile = pd.read_excel(r"C:\Users\15025\Desktop\uncle\debug.xlsx")time = file["付款时间"].str.slice(11, 19)print(time)"""result:0     23:57:141     2
				pandas:快速处理字符串方法前言
当我们遇到一个超级大的DataFrame，里面有一列类型为字符串，要将每一行的字符串都用同一方式进行处理，一般会想到遍历整合DataFrame，但是如果直接这样做的话将会耗费很长时间，有时几个小时都处理不完。于是就有了本篇文章所要分享给大家的：pandas快速处理字符串方法。
				可以使用 df[df['column_name'].str.contains(u'[\u4e00-\u9fff]+')] 来筛选出包含中文字符的行。
注意，这里的 df 是指你的数据框，column_name 是你要筛选的列的名称。
例如，假设你有一个名为 people 的数据框，其中有一列名为 name，你可以使用以下代码筛选出名字中包含中文字符的人：
filtered_df = people[...
在日常开展数据分析的过程中，我们经常需要对字符串类型数据进行处理，此类过程往往都比较繁琐，而pandas作为表格数据分析利器，其内置的基于Series.str访问器的诸多针对字符串进行处理的方法，以及一些top-level级的内置函数，则可以帮助我们大大提升字符串型数据处理的效率。
本文我就将带大家学习pandas中常用的一些高效字符串处理方法..
				在pandas中，合并单元格通常指的是将多个单元格的值合并成一个单元格。可以使用pandas的groupby函数来实现单元格合并。具体步骤如下：
1. 使用groupby函数将需要合并的单元格分组。
2. 对分组后的单元格进行聚合操作，将多个单元格的值合并成一个单元格。
3. 将聚合后的结果重新赋值给原始数据框。
例如，假设有一个数据框df，其中包含两列A和B，需要将A列中相同的值合并成一个单元格，可以使用以下代码实现：
df.groupby('A')['B'].apply(lambda x: ','.join(x)).reset_index()
其中，groupby函数将A列中相同的值分组，apply函数将B列中的值合并成一个字符串，reset_index函数将结果重新赋值给原始数据框。