相关文章推荐
飘逸的小熊猫  ·  C++ ...·  1 年前    · 

1、基础知识介绍
(1)编码类型查看

# look at the first ten thousand bytes to guess the character encoding
import chardet
with open("test.csv", 'rb') as rawdata:
    result = chardet.detect(rawdata.read(10000))
# check what the character encoding might be
print(result)

在这里插入图片描述
利用chardet模块对原始数据rawdata的前10000行数据进行编码类型的判断,可以得到该文件编码格式为’Windows-1252’,具有73%的置信度来证明这个结论,进一步地需要在读取csv文件的时候设定encoding参数,才能够正常读取

kickstarter_2016 = pd.read_csv("test.csv", encoding='Windows-1252')

(2)编码类型转换
utf-8 <—> unicode <—> gbk
转换例子:
s=u’小明’
#编码为utf-8
s_utf = s.encode(‘utf-8’)
#变为为gbk,先解码为unicode,再编码
s_gbk = s_utf.decode(‘utf-8’).encode(‘gbk’)
结果如下图所示,utf-8一个中文占3个字节,gbk两个字节
在这里插入图片描述

2、文件格式转换
用微软windows系统自带的记事本打开这个csv文件,菜单里选择另存,在弹出的窗口下面有个编码,这时显示出UTF-8的话说明该CSV文件就是utf-8格式。
文件编码为ANSI
#data = pd.read_csv(inputfile, encoding = ‘gbk’) #读取数据,指定编码为gbk
文件编码为UTF-8
data = pd.read_csv(inputfile, encoding = ‘utf-8’) #读取数据,指定编码为utf-8
在这里插入图片描述

utf-8 &lt;—&gt; unicode &lt;—&gt; gbk转换例子:s=u’小明’#编码为utf-8s_utf = s.encode(‘utf-8’)#变为为gbk,先解码为unicode,再编码s_gbk = s_utf.decode(‘utf-8’).encode(‘gbk’)结果如下图所示,utf-8一个中文占3个字节,gbk两个字节用微软windows系统自带的记事本打开这个csv文件,菜单里选择另存,在弹出的窗口下面有个编码,这时显示出UTF-8的话说明该CSV文
Python的字符串编码规则一直让我很头疼,花了点时间研究了下,并不复杂。主要涉及的内容有常用的字符编码的特点,并介绍了在python2.x中如何与编码问题作战,本文关于Python的内容仅适用于2.x,3.x中str和unicode有翻天覆地的变化,具体请查阅相关资料。 1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号。不过ASCII只用到了其中的一半(\x80以
Unicode也叫万国码、单一码,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。对于世界上所有的语言文字再unicode中都可以查看到。【汉】字的编码解释官网https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6C49 unicode编码就是为了统一世界上的编码,有一个统一的规范。但是它还存在一些问题。Unicode的问题 需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存
strs = "bema schwimmfl gel gr÷▀e 0" a = chardet.detect(strs) #windows-1252 str2 = strs.decode('windows-1252') str2.encode('utf-8') print str2
在Windows 下,进行utf-8 格式的相关转换时需要注意,许多编译器默认windows上的是ANSI编码的而非utf-8格式,这会导致绝大多数情况下BOM会丢失 因此在windows下进行转换时,要写清楚,比如我有一个gbk格式的csv文件,需要按照如下方式进行转换 import pandas as pd df = pd.read_csv(path,encoding="gbk") df.to_csv(path,encoding="utf-8-sig") 如果to_csv 里面直接写encodi
def getCoding(strInput):'''获取编码格式'''if isinstance(strInput, unicode):return "unicode"try:strInput.decode("utf8")return 'utf8'except:passtry:strInput.decode("gbk")return 'gbk'except:pass def tran2UTF8(...
1、keras-gpu环境搭建 anaconda+tensorflow-gpu参考文档(tensorflow-gpu.docx) 安装与tensorflow-gpu相兼容的keras版本,如本次实验环境为python3.6,tensorflow-gpu=1.14.0,keras=2.25,cuda=10.0,cudnn=7.6 2、keras基础知识 (1)数据预处理(图片、文本、序列数据)、网络层(模型构建)、数据集 (2)激活函数、损失函数、评价指标、优化方式、回调函数 (3)API使用(Sequen
wget https://github.com/BtbN/FFmpeg-Builds/releases/download/autobuild-2020-11-05-12-30/ffmpeg-N-99863-g70d8077b79-win64-gpl-shared-vulkan.zip 下载解压至本地文件,然后添加到环境变量 C:\FFmpeg\ffmpeg-N-99863-g70d8077b79- python=3.6,torch=1.2.0,torchvision=0.4.0,cuda=10.0 下载链接:https://download.pytorch.org/whl/torch_stable.html 2、tensorboard使用 使用tensorboardX模块达到tensorboard可视化的效果 下述代码运行完毕过后,将生成文件夹和test.json文件,将带event的文件夹放置在tensorboard运行的l
import matplotlib.pyplot as plt #导入作图库 plt.matshow(cm, cmap=plt.cm.Greens) #画混淆矩阵图,配色风格使用cm.Greens,更多风格请参考官网。 #plt.colorbar() #颜色标签
1、LabelEncoder from sklearn.preprocessing import LabelEncoder cat_features = [‘category’, ‘currency’, ‘country’] encoder = LabelEncoder() #Apply the label encoder to each column encoded = ks[cat_features].apply(encoder.fit_transform) 2、CountEncoder