2. 连接数据库 将数据库连接数据库的编码设置为utf8
db = MySQLdb.connect(host='数据库,user=用户名,passwd=密码,db='数据库, init_command="set names utf8" )
3. 查询出来的数据转化为json
t = json.dumps(r, ensure_ascii=False)
如果 不加 ensure_ascii=False 输出的 t 如果有汉字的话都默认给转换成一堆编码 如果加上的话 就都能正常显示变成了汉字
不加的话: t = json.dumps(r)
[{"category": {"label": "\u65b0\u8f66"}, "title": "\u5168\u65b0\u8d77\u4e9a\u798f\u745e\u8fea\u8def\u8bd5\u8c0d\u7167\u66dd\u5149 \u6216\u4e3a\u5b9a\u540dK3", "url": "http://auto.sohu.com/20120523/n343878794.shtml", "source": "\u641c\u72d0\u6c7d\u8f66", "time": 1337740004, "imgUrl": ""}, {"category": {"label": "\u65b0\u8f66"}, "title": "\u65b0\u5965\u8feaQ7/Q8\u66f4\u591a\u4fe1\u606f\u66dd\u5149 \u5c06\u57fa\u4e8eMLB\u5e73\u53f0", "url": "http://auto.sohu.com/20120523/n343873150.shtml", "source": "\u641c\u72d0\u6c7d\u8f66", "time": 1337737913, "imgUrl": ""}]
加上的话: t = json.dumps(r, ensure_ascii=False)
[{"category": {"label": "新车"}, "title": "全新起亚福瑞迪路试谍照曝光 或为定名K3", "url": "http://auto.sohu.com/20120523/n343878794.shtml", "source": "汽车", "time": 1337740004, "imgUrl": ""}, {"category": {"label": "新车"}, "title": "新奥迪Q7/Q8更多信息曝光 将基于MLB平台", "url": "http://auto.sohu.com/20120523/n343873150.shtml", "source": "汽车", "time": 1337737913, "imgUrl": ""}]
我们在post请求数据时,响应的内容是
json数据
,但是返回的json数据中文显示有问题,变成 \uXXX的形式。这是因为中文以 unicode 编码了,而默认是以ASCII解析的,中文不在ASCII编码中,所以无法显示。
这时候我们可以用
import
json 然后调用json.loads() 和json.dumps()来使中文正确显示。 下面的代码(data是中文不能正常显示的json串,newjson是处理后中文正常显示的字符串)
import json
myjson=json.loads(data) #data是向 api请求的响应数据,data必须是字符串类型的
newjson=json.dumps(myjson,ensure_ascii=False) #ensure_ascii=False 就不会用 ASCII 编码,中文就可以正常显示了
print newjson
有这样一个需求: 需要一个json 文件 数据从数据库里查询出来1. 设置文件头# -*- coding:utf-8 -*- 2. 连接数据库 将数据库连接数据库的编码设置为utf8 db = MySQLdb.connect(host='数据库,user=用户名,passwd=密码,db='数据库, init_command="set
python
2.x版本的字符编码有时让人很头疼,遇到
问题
,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍
python
中字符串处理的原理,附带解决
json
文件输出时,显示中文而非 unicode
问题
。首先简要介绍字符串编码的历史,其次,讲解
python
对于字符串的处理,及编码的检测与
转换
,最后,介绍
python
爬虫采取的
json
数据存入文件时中文输出的
问题
。
参考书籍:
Python
网络爬虫从入门到实践 by唐松
在
python
2或者3 ,字符串编码只有两类 :
(1)通用的Unicode编码;
(2)将Unicode转化为某种类型的编码,如UTF-8,
1.
问题
遇到类似于str = "\\
u65b0
\\u589e\\u4f1a\\u5458" 类型的字符串,想将这种字符串
转换
成Unicode类型的字符串,即中文字符串,该怎么做?
2.解决方法
通过
Python
中的encode函数先将上述字符串str编码成utf-8类型的字符串,再用decode函数将字符串
解码
就行了,具体操作代码如下:
#!/usr/bin/env
python
3
# -*- coding: utf-8 -*-
# author:Echo
# time:2022-01-05-
最近一直在研究
python
+selenium+beautifulsoup的爬虫,但是存入数据库还有写入txt文件里面的时候一直都是unicode编码的格式。
接下来就是各种翻阅文档,查找谷歌和度娘,但是都没有具体的说明是什么
问题
。
结果根据自己的代码发现,原来是一句代码写到后面去了。
name =
json
.dumps('中国你好', ensure_ascii=False) #重点就是这一句代码
date = time.strftime('%Y-%m-%d', time.localtime(time.time())) #此处是时间
转换
f = codecs.open(date + '.txt
写这篇文章的缘由是我使用 reqeusts 库请求接口的时候, 直接使用请求参数里的
json
字段发送数据, 但是服务器无法识别我发送的数据, 排查了好久才知道 requests 内部是使用
json
.dumps 将字符串转成
json
的, 而
json
.dumps 默认情况下会将 非ASCII 字符转义, 也就是我发送数据中的中文被转义了, 所以服务器无法识别. 这篇文章虽然是
json
.dumps
问题
的总结, 但也会涉及到 字符编码
问题
, 所以就简单先说一下 字符编码.
Python
中的字符编码
在
Python
3 中, 字符 在内存中是使用 Unicode 存储的, 常规的
#convert string
json
tolua . str_to_lua_table ( '{"a":"1","b":2,"c":[1,2,3]}' )
#return lua code
a = '1',
c = {
1,2,3
b = 2
#convert file
json
tolua . file_to_lua_file ( './1.
json
' , './1.lua' )
导出
json
的时候,怎么把\u6b27\u83b1\u96c5\u9752\u6625\u5bc6\u7801的转成汉字
只需要在
json
.dump里增加参数ensure_ascii=False
string = '{"name": "Tom", "age": 18, "gender": "male"}'
json
_obj =
json
.loads(string)
print(
json
_obj)
json
_str =
json
.dumps(
json
_obj)
print(
json
_str)
输出结果:
{'name': 'Tom', 'age': 18, 'gender': 'male'}
{"name": "Tom", "age": 18, "gender": "male"}
<h3>回答2:</h3><br/>
Python
提供了一个内置模块叫做
json
,它可以通过一系列方法将字符串
转换
为
JSON
格式的对象。
首先,我们需要使用
json
模块中的loads()方法来将
JSON
格式的字符串
转换
为
Python
的字典对象。loads()方法将接收一个字符串参数,并返回一个字典对象。
例如,以下是将
JSON
格式的字符串
转换
为
Python
字典对象的示例:
import
json
json
Str = '{"name": "小明", "age": 18, "city": "北京"}'
json
Data =
json
.loads(
json
Str)
print(
json
Data)
输出结果为:
{'name': '小明', 'age': 18, 'city': '北京'}
接下来,我们可以对该字典对象进行操作,例如获取其中的某个值:
print(
json
Data["name"])
输出结果为:
如果需要将
Python
的字典对象
转换
为
JSON
格式的字符串,则可以使用
json
模块中的dumps()方法。同样,dumps()方法将接收一个字典对象参数,并返回一个
JSON
格式的字符串。
例如,以下是将
Python
字典对象
转换
为
JSON
格式的字符串的示例:
import
json
json
Data = {"name": "小明", "age": 18, "city": "北京"}
json
Str =
json
.dumps(
json
Data)
print(
json
Str)
输出结果为:
{"name": "\u5c0f\u660e", "age": 18, "city": "\u5317\u4eac"}
需要注意的是,
json
.dumps()方法返回的是
JSON
格式的字符串,其中某些字符可能会被转义,例如中文字符会被转义为"\uXXXX"的形式。
因此,如果需要输出可读性更好的
JSON
字符串,则可以添加参数indent=4(或其他数字),使其以指定的空格数量进行缩进:
import
json
json
Data = {"name": "小明", "age": 18, "city": "北京"}
json
Str =
json
.dumps(
json
Data, indent=4)
print(
json
Str)
输出结果为:
"name": "小明",
"age": 18,
"city": "北京"
总的来说,通过
json
模块,我们可以方便地将字符串与
JSON
格式的数据进行
转换
,从而更方便地进行数据的处理和传输。
<h3>回答3:</h3><br/>
Python
中的
json
模块可以用来将字符串
转换
为
JSON
格式。
JSON
(JavaScript Object Notation)是一种轻量级的数据交换格式,易于阅读和编写,也易于机器解析和生成。下面是使用
json
模块将字符串
转换
为
JSON
格式的步骤:
1. 导入
json
模块
使用
json
模块需要先导入:
import
json
2. 将字符串
转换
为
Python
对象
使用
json
.loads()函数可以将
JSON
字符串
转换
为
Python
对象。例如:
json
_string = '{"name": "Tom", "age": 18}'
data =
json
.loads(
json
_string)
这里将一个
JSON
字符串{"name": "Tom", "age": 18}
转换
为
Python
字典。
3. 将
Python
对象
转换
为
JSON
格式
使用
json
.dumps()函数可以将
Python
对象
转换
为
JSON
格式的字符串。例如:
data = {'name': 'Tom', 'age': 18}
json
_string =
json
.dumps(data)
这里将一个
Python
字典{'name': 'Tom', 'age': 18}
转换
为
JSON
格式的字符串。
使用上述方法,就可以轻松地将字符串
转换
为
JSON
格式了。需要注意的是,要确保
JSON
字符串的格式正确,否则
转换
可能会失败。可以使用在线
JSON
格式检查工具来检查
JSON
字符串的格式是否正确。