一般情况是以下这样的:

#xpath解析:
html = etree.HTML(doc,parser=etree.HTMLParser(encoding='utf8'))
#pandas保存:
df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='utf8')

但是解析爬取后保存CSV文件一直是乱码,可能是网页中字符串有繁体字的缘故,爬下的网址链接没问题。交替试了多种编码格式才搞定!

以下组合不再乱码:

#xpath:
html = etree.HTML(doc,parser=etree.HTMLParser(encoding='gbk'))
#pandas:
df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='gb18030')



java存不存在内存泄露 java jni内存泄露

在c++中new的对象,如果不返回java,必须用release掉,否则内存泄露。包括NewStringUTF,NewObject。如果返回java不必release,java会自己回收。jstring jstr = env->NewStringUTF((*p).sess_id); env->DeleteLocalRef( jstr); jobject jobj =