我刚开始用Python编写代码,想构建一个解决方案,在这里您可以搜索一个字符串,看看它是否包含一组给定的值。
下面的代码似乎可以工作,但我也希望输出我要查找的三个值,此解决方案将只输出一个值:#Inserting new column
df.insert(5, "New_Column", np.nan)
#Searching old column
df['New_Column'] = np.where(df['Column_with_text'].str.contains('value1|value2|value3', case=False, na=False), 'value', 'NaN')
----编辑---
所以我意识到我没有给出很好的解释,很抱歉。
下面是一个例子,我在一个字符串中匹配水果名,根据它是否在字符串中找到任何匹配项,它将在一个新列中输出true或false。我的问题是:我不想打印出真假,而是想打印出字符串中的名字,如苹果、桔子等import pandas as pd
import numpy as np
text = [('I want to buy some apples.', 0),
('Oranges are good for the health.', 0),
('John is eating some grapes.', 0),
('This line does not contain any fruit names.', 0),
('I bought 2 blueberries yest
我刚开始用Python编写代码,想构建一个解决方案,在这里您可以搜索一个字符串,看看它是否包含一组给定的值。下面的代码似乎可以工作,但我也希望输出我要查找的三个值,此解决方案将只输出一个值:#Inserting new columndf.insert(5, "New_Column", np.nan)#Searching old columndf['New_Column'] = np.where(d...
’’‘Series.
str
.
contains
(pat,case = True,flags = 0,na = nan,regex = True)’’'
测试pattern或regex是否包含在Series或Index的
字符串
中
。
返回布尔
值
系列或索引,具体取决于给定模式或正则表达式是否包含在系列或索引的
字符串
中
。
pat :
str
类型
字符序列或正则表达式。
case : bool,默认为True...
Python
语言里有许多(而且是越来越多)的高级特性,是
Python
发烧友们非常喜欢的。在这些人的眼里,能够写出那些一般开发者看不懂的高级特性,就是高手,就是大神。
但你要知道,在团队合作里,炫技是大忌。
为什么这么说呢?我说下自己的看法:
越简洁的代码,越清晰的逻辑,就越不容易出错;
在团队合作
中
,你的代码不只有你在维护,降低别人的阅读/理解代码逻辑的成本是一个良好的品德
简单的代码,只会用到最基本的语法糖,复杂的高级特性,会有更多的依赖(如语言的版本)
该篇是「炫技系列」的第三篇内容,在这个系
我们在使用
pandas
读取Excel后一般都需要对数据进行筛选,如果是数字格式的话比较简单,如果遇到列全部都是文字的话,如果按照我们的需求进行筛选呢?如筛选有指定文字的数据集,筛选包含某几个字的数据集,甚至运用正则表达式,去使用更高级的筛选策略呢,欢迎阅读如何使用
pandas
对包含文字的列数据进行筛选。
样例数据:
例如:我们手头有>1百万行数据的销售表haha.csv,要筛选所有和客户,比如
中
国移动,有关的销售记录。怎么做?
Excel:首先:打开文件,点击“筛选”;然后:在列“customer_name”下拉框,输入关键词
中
国移动;最后:点击点击“确定”,得到所有含有
中
国移动的的记录;
Python
:
第一步:读取文件;
第二步:设定筛选条件;
第三步:
打印
/输
(转载)http://outofmemory.cn/code-snippet/14513/
python
-decide-charaeter--
str
ing-if-contain-
contains
--charaeter-method
方法1:使用 in 方法实现
contains
的功能:
site = 'http://www.outofmemory.cn/'
if "sharejs" in
import numpy as np
a=np.array([['北京','北方','一线','非沿海'],['杭州','南方','二线','非沿海'],['深圳','南方','一线','沿海'],['烟台','北方','三线','沿海']])
df1=pd.DataFrame(a,index=[1,2,...
Pandas
中
的DataFrame.corr()函数用于计算DataFrame
中
各列之间的相关系数。该函数返回一个矩阵,其
中
包含每对列之间的相关系数。默认情况下,它使用Pearson相关系数计算,但可以通过method参数指定使用其他相关系数计算,如Spearman或Kendall。
import
pandas
as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
print(df.corr())
A B C
A 1.0 -1.0 -1.0
B -1.0 1.0 1.0
C -1.0 1.0 1.0
可以看出对于A,B,C三个字段之间的相关性.