在 pandas 中,可以使用
str.slice()
或
str.substring()
函数来截取 DataFrame 中某一列的字符串。
使用
str.slice()
函数:
df['new_column'] = df['original_column'].str.slice(start, stop)
使用 str.substring()
函数:
df['new_column'] = df['original_column'].str.substring(start, stop)
其中,start 和 stop 分别为截取字符串的起始位置和结束位置。
df = pd.DataFrame({'A': ['abcdefg', 'hijklmn', 'opqrstu']})
df['B'] = df['A'].str.slice(1,4)
print(df)
0 abcdefg bcd
1 hijklmn ijk
2 opqrstu pqr
也可以使用正则表达式截取,如
df['new_column'] = df['original_column'].str.extract(pattern)
其中 pattern 为正则表达式
如果是要截取整列的话可以在读取数据的时候截取。
df = pd.read_csv('file.csv', usecols=lambda column: column in ['A', 'B'])
如果只需要截取部分行的话,可以使用
df[df['original_column'].str.len() > n]
其中 n 为长度限制