kickstarter_2016 = pd.read_csv("test.csv", encoding='Windows-1252')
(2)编码类型转换
utf-8 <—> unicode <—> gbk
转换例子:
s=u’小明’
#编码为utf-8
s_utf = s.encode(‘utf-8’)
#变为为gbk,先解码为unicode,再编码
s_gbk = s_utf.decode(‘utf-8’).encode(‘gbk’)
结果如下图所示,utf-8一个中文占3个字节,gbk两个字节
2、文件格式转换
用微软windows系统自带的记事本打开这个csv文件,菜单里选择另存,在弹出的窗口下面有个编码,这时显示出UTF-8的话说明该CSV文件就是utf-8格式。
文件编码为ANSI
#data = pd.read_csv(inputfile, encoding = ‘gbk’) #读取数据,指定编码为gbk
文件编码为UTF-8
data = pd.read_csv(inputfile, encoding = ‘utf-8’) #读取数据,指定编码为utf-8
utf-8 <—> unicode <—> gbk转换例子:s=u’小明’#编码为utf-8s_utf = s.encode(‘utf-8’)#变为为gbk,先解码为unicode,再编码s_gbk = s_utf.decode(‘utf-8’).encode(‘gbk’)结果如下图所示,utf-8一个中文占3个字节,gbk两个字节用微软windows系统自带的记事本打开这个csv文件,菜单里选择另存,在弹出的窗口下面有个编码,这时显示出UTF-8的话说明该CSV文
Python的字符串编码规则一直让我很头疼,花了点时间研究了下,并不复杂。主要涉及的内容有常用的字符编码的特点,并介绍了在python2.x中如何与编码问题作战,本文关于Python的内容仅适用于2.x,3.x中str和unicode有翻天覆地的变化,具体请查阅相关资料。
1. 字符编码简介
1.1. ASCII
ASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号。不过ASCII只用到了其中的一半(\x80以
Unicode也叫万国码、单一码,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。对于世界上所有的语言文字再unicode中都可以查看到。【汉】字的编码解释官网https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6C49
unicode编码就是为了统一世界上的编码,有一个统一的规范。但是它还存在一些问题。Unicode的问题
需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存
strs = "bema schwimmfl gel gr÷▀e 0"
a = chardet.detect(strs) #windows-1252
str2 = strs.decode('windows-1252')
str2.encode('utf-8')
print str2
在Windows 下,进行utf-8 格式的相关转换时需要注意,许多编译器默认windows上的是ANSI编码的而非utf-8格式,这会导致绝大多数情况下BOM会丢失
因此在windows下进行转换时,要写清楚,比如我有一个gbk格式的csv文件,需要按照如下方式进行转换
import pandas as pd
df = pd.read_csv(path,encoding="gbk")
df.to_csv(path,encoding="utf-8-sig")
如果to_csv 里面直接写encodi
def getCoding(strInput):'''获取编码格式'''if isinstance(strInput, unicode):return "unicode"try:strInput.decode("utf8")return 'utf8'except:passtry:strInput.decode("gbk")return 'gbk'except:pass
def tran2UTF8(...
1、keras-gpu环境搭建
anaconda+tensorflow-gpu参考文档(tensorflow-gpu.docx)
安装与tensorflow-gpu相兼容的keras版本,如本次实验环境为python3.6,tensorflow-gpu=1.14.0,keras=2.25,cuda=10.0,cudnn=7.6
2、keras基础知识
(1)数据预处理(图片、文本、序列数据)、网络层(模型构建)、数据集
(2)激活函数、损失函数、评价指标、优化方式、回调函数
(3)API使用(Sequen
wget https://github.com/BtbN/FFmpeg-Builds/releases/download/autobuild-2020-11-05-12-30/ffmpeg-N-99863-g70d8077b79-win64-gpl-shared-vulkan.zip
下载解压至本地文件,然后添加到环境变量
C:\FFmpeg\ffmpeg-N-99863-g70d8077b79-
python=3.6,torch=1.2.0,torchvision=0.4.0,cuda=10.0
下载链接:https://download.pytorch.org/whl/torch_stable.html
2、tensorboard使用
使用tensorboardX模块达到tensorboard可视化的效果
下述代码运行完毕过后,将生成文件夹和test.json文件,将带event的文件夹放置在tensorboard运行的l
import matplotlib.pyplot as plt #导入作图库
plt.matshow(cm, cmap=plt.cm.Greens) #画混淆矩阵图,配色风格使用cm.Greens,更多风格请参考官网。
#plt.colorbar() #颜色标签
1、LabelEncoder
from sklearn.preprocessing import LabelEncoder
cat_features = [‘category’, ‘currency’, ‘country’]
encoder = LabelEncoder()
#Apply the label encoder to each column
encoded = ks[cat_features].apply(encoder.fit_transform)
2、CountEncoder