`
djangofan
  • 浏览: 35584 次
社区版块
存档分类
最新评论

Python Unicode与中文处理

 
阅读更多

python中的unicode是让人很困惑、比较难以理解的问题,本文力求彻底解决这些问题;

 

1.unicode、gbk、gb2312、utf-8的关系;

http://www.pythonclub.org/python-basic/encode-detail 这篇文章写的比较好,utf-8是unicode的一种实现方式,unicode、gbk、gb2312是编码字符集;

 

2.python中的中文编码问题;

2.1 .py文件中的编码

Python 默认脚本文件都是 ANSCII 编码的,当文件 中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正。 一个module的定义中,如果.py文件中包含中文字符(严格的说是含有非anscii字符),则需要在第一行或第二行指定编码声明:

# -*- coding=utf-8 -*-或者 #coding=utf-8 其他的编码如:gbk、gb2312也可以; 否则会出现类似:SyntaxError: Non-ASCII character '/xe4' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho for details这样的异常信息;n.org/peps/pep-0263.html

 

2.2 python中的编码与解码

先说一下python中的字符串类型,在python中有两种字符串类型,分别是str和unicode,他们都是basestring的派生类;str类型是一个包含Characters represent (at least) 8-bit bytes的序列;unicode的每个unit是一个unicode obj;所以:

len(u'中国')的值是2;len('ab')的值也是2;

在str的文档中有这样的一句话:The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file. 也就是说在读取一个文件的内容,或者从网络上读取到内容时,保持的对象为str类型;如果想把一个str转换成特定编码类型,需要把str转为Unicode,然后从unicode转为特定的编码类型如:utf-8、gb2312等;

python中提供的转换函数:

unicode转为 gb2312,utf-8等

# -*- coding=UTF-8 -*-

if __name__ == '__main__':
s = u'中国'
s_gb =s.encode('gb2312')

utf-8,GBK转换为unicode 使用函数unicode(s,encoding) 或者s.decode(encoding)

# -*- coding=UTF-8 -*-

if __name__ == '__main__':
s = u'中国'

#s为unicode先转为utf-8

s_utf8 =s.encode('UTF-8')

 

assert(s_utf8.decode('utf-8') == s)

 

普通的str转为unicode

# -*- coding=UTF-8 -*-

if __name__ == '__main__':
s = '中国'

su = u'中国''

#s为unicode先转为utf-8

#因为s为所在的.py(# -*- coding=UTF-8 -*-)编码为utf-8

s_unicode =s.decode('UTF-8')

assert(s_unicode == su)

#s转为gb2312,先转为unicode再转为gb2312

s.decode('utf-8').encode('gb2312')

#如果直接执行s.encode('gb2312')会发生什么?

s.encode('gb2312')

 

# -*- coding=UTF-8 -*-

if __name__ == '__main__':
s = '中国'

#如果直接执行s.encode('gb2312')会发生什么?

s.encode('gb2312')

 

这里会发生一个异常:

Python 会自动的先将 s 解码为 unicode ,然后再编码成 gb2312。因为解码是python自动进行的,我们没有指明解码方式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII,如果 s 不是这个类型就会出错。
拿上面的情况来说,我的 sys.defaultencoding 是 anscii,而 s 的编码方式和文件的编码方式一致,是 utf8 的,所以出错了: UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
对于这种情况,我们有两种方法来改正错误:
一是明确的指示出 s 的编码方式
#! /usr/bin/env python
# -*- coding: utf-8 -*-
s = '中文'
s.decode('utf-8').encode('gb2312')
二是更改 sys.defaultencoding 为文件的编码方式

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入
sys.setdefaultencoding('utf-8')

str = '中文'
str.encode('gb2312')

 

文件编码与print函数
建立一个文件test.txt,文件格式用ANSI,内容为:
abc中文
用python来读取
# coding=gbk
print open("Test.txt").read()
结果:abc中文
把文件格式改成UTF-8:
结果:abc涓枃
显然,这里需要解码:
# coding=gbk
import codecs
print open("Test.txt").read().decode("utf-8")
结果:abc中文
上面的test.txt我是用Editplus来编辑的,但当我用Windows自带的记事本编辑并存成UTF-8格式时,
运行时报错:
Traceback (most recent call last):
File "ChineseTest.py", line 3, in <module>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'/ufeff' in position 0: illegal multibyte sequence

原来,某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。
因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
结果:abc中文

(四)一点遗留问题
在第二部分中,我们用unicode函数和decode方法把str转换成unicode。为什么这两个函数的参数用"gbk"呢?
第一反应是我们的编码声明里用了gbk(# coding=gbk),但真是这样?
修改一下源文件:
# coding=utf-8
s = "中文"
print unicode(s, "utf-8")
运行,报错:
Traceback (most recent call last):
File "ChineseTest.py", line 3, in <module>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data
显然,如果前面正常是因为两边都使用了gbk,那么这里我保持了两边utf-8一致,也应该正常,不至于报错。
更进一步的例子,如果我们这里转换仍然用gbk:
# coding=utf-8
s = "中文"
print unicode(s, "gbk")
结果:中文
翻阅了一篇英文资料,它大致讲解了python中的print原理:
When Python executes a print statement, it simply passes the output to the operating system (using fwrite() or something like it), and some other program is responsible for actually displaying that output on the screen. For example, on Windows, it might be the Windows console subsystem that displays the result. Or if you're using Windows and running Python on a Unix box somewhere else, your Windows SSH client is actually responsible for displaying the data. If you are running Python in an xterm on Unix, then xterm and your X server handle the display.

To print data reliably, you must know the encoding that this display program expects.

简单地说,python中的print直接把字符串传递给操作系统,所以你需要把str解码成与操作系统一致的格式。Windows使用CP936(几乎与gbk相同),所以这里可以使用gbk。
最后测试:
# coding=utf-8
s = "中文"
print unicode(s, "cp936")
结果:中文

特别推荐:

python 编码 检测

使用 chardet 可以很方便的实现字符串/文件的编码检测

例子如下:

>>>

 import

 urllib


>>>

 rawdata = urllib

.urlopen

(

'http://www.google.cn/'

)

.read

(

)


>>>

 import

 chardet
>>>

 chardet.detect

(

rawdata)


{

'confidence'

: 0.98999999999999999

, 'encoding'

: 'GB2312'

}


>>>

chardet 下载地址 http://chardet.feedparser.org/

特别提示:

在工作中,经常遇到,读取一个文件,或者是从网页获取一个问题,明明看着是gb2312的编码,可是当使用decode转时,总是出错,这个时候,可以使用decode('gb18030')这个字符集来解决,如果还是有问题,这个时候,一定要注意,decode还有一个参数,比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作
s.decode('gbk').encode('utf-8′)
可是,在实际开发中,我发现,这种办法经常会出现异常:
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
这 是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中,全角空格往往有多种不同的实现方式,比如/xa3/xa0,或者/xa4/x57,这些 字符,看起来都是全角空格,但它们并不是“合法”的全角空格(真正的全角空格是/xa1/xa1),因此在转码的过程中出现了异常。
这样的问题很让人头疼,因为只要字符串中出现了一个非法字符,整个字符串——有时候,就是整篇文章——就都无法转码。
解决办法:
s.decode('gbk', ‘ignore').encode('utf-8′)
因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。

python文档

decode( [encoding[, errors]])
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.
详细出处参考:http://www.jb51.net/article/16104.htm

参考:

【1】http://blog.chinaunix.net/u2/68206/showart.php?id=668359

【2】http://www.pythonclub.org/python-basic/codec

【3】http://www.pythonclub.org/python-scripts/quanjiao-banjiao

【4】http://www.pythonclub.org/python-basic/chardet

 

分享到:
评论

相关推荐

    Unicode和Python的中文处理

    在Python语言中,Uincode字符串处理一直是一个容易让人迷惑的问题。许多Python爱好者经常因为搞不清Unicode、UTF-8还有其它许许多多的编码...本文将介绍Unicode和Python的中文处理的相关知识。下面跟着小编一起来看下吧

    Python处理中文路径

    Python处理中文路径 方法 解决办法 # -*- coding: utf-8 -*- filepath=unicode(filepath,'utf8') fobj=open(filepath,"r") f = codecs.open('c:/intimate.txt','r','utf-8') s = f.readlines() f.close()

    Python 编码处理-str与Unicode的区别

    用python处理中文时,读取文件或消息,http参数等等 一运行,发现乱码(字符串处理,读写文件,print) 然后,大多数人的做法是,调用encode/decode进行调试,并没有明确思考为何出现乱码 所以调试时最常出现的错误 ...

    Python学习手册中文版

    如果你想动手编写高效、高质量并且很容易与其他语言和工具集成的代码,本书将快速地帮助你利用Python提高效率。本书基于Python专家的流程培训课程...探索先进的Python工具,包括装饰符、描述符、元类、Unicode的处理。

    Python学习手册4th Edition(Learning Python中文扫描版)

    《Python学习手册:第4版》是《Learning Python》的高清中文扫描版,是易于掌握和自学的教程,根据作者Python专家Mark Lutz的著名培训课程编写而成。...了解包括装饰器、描述器、元类和Unicode处理等高级Python工具。

    Python中文本编码官方文件(howto-unicode)

    Python官方解答unicode编码基本知识以及常见问题的处理。对于深入理解Unicode编码十分重要。

    python避免中文乱码的代码.docx

    Python是一种非常流行的编程语言,但是在处理中文字符时,很容易出现乱码的情况。这是因为Python默认使用的编码方式是ASCII码,而中文字符需要使用UTF-8等编码方式才能正确显示。为了避免中文乱码,我们需要在代码...

    Python原始字符串与Unicode字符串操作符用法实例分析

    本文实例讲述了Python原始字符串与Unicode字符串操作符用法。分享给大家供大家参考,具体如下: #coding=utf8 ''''' 在原始字符串里,所有的字符串都是直接按照字面的意思来使用, 没有转义特殊或不能打印的字符。 ...

    python中文编码与json中文输出问题详解

    首先简要介绍字符串编码的历史,其次,讲解 python 对于字符串的处理,及编码的检测与转换,最后,介绍 python 爬虫采取的 json 数据存入文件时中文输出的问题。 参考书籍:Python网络爬虫从入门到实践 by唐松 在...

    Python 中文手册

    3.1.3. 关于 Unicode 3.1.4. 列表 3.2. 编程的第一步 4. 深入 Python 流程控制 4.1. if 语句 4.2. for 语句 4.3. The range() 函数 4.4. break 和 continue 语句, 以及循环中的 else 子句 4.5. pass 语句 4.6. 定义...

    《Python学习手册:第4版(中文)》part1

    作者 Mark Lutz 《Python学习手册:第4版》包括以下内容: 学习Python的主要内建对象类型:数字、列表和字典。 使用Python语句创建和处理对象,并且...了解包括装饰器、描述器、元类和Unicode处理等高级Python工具。

    《Python学习手册:第4版(中文)》part2

    作者 Mark Lutz 《Python学习手册:第4版》包括以下内容: 学习Python的主要内建对象类型:数字、列表和字典。 使用Python语句创建和处理对象,并且...了解包括装饰器、描述器、元类和Unicode处理等高级Python工具。

    Python2.x中str与unicode相关问题的解决方法

    python2.x中处理中文,是一件头疼的事情。网上写这方面的文章,测次不齐,而且都会有点错误,所以在这里打算自己总结一篇文章。 我也会在以后学习中,不断的修改此篇博客。 这里假设读者已有与编码相关的基础知识,...

    Python中文手册(汉译)Word文字可编辑版.doc

    Python中文社区 向上:Python 文档索引 向后:前言 Python 手册 Python 手册 Guido van Rossum Fred L. Drake, Jr., editor PythonLabs Email: python-docs@python.org Release 2.3 July 29, 2003 前言 目录 1. 开胃...

    python_xlrd中文版.zip

    1.处理Unicode.pdf 2.Excel电子表格中的日期.pdf 3.命名引用,常量,公式和宏.pdf 4.在Excel电子表格中格式化信息.pdf 5.按需加载工作表.pdf 6.XML漏洞和Excel文件.pdf 7.API参考.pdf 8.安装说明.pdf

    python获取中文字符串长度的方法

    您可能感兴趣的文章:python中字符串的操作方法大全python 遍历字符串(含汉字)实例详解Python实现简单文本字符串处理的方法Python 打印中文字符的三种方法Python实现针对含中文字符串的截取功能示例Python 字符串...

    python处理json数据中的中文

    python中自带了处理python的模块,使用时候直接import json即可。 使用loads方法即可将json字符串转换成...但在使用json模块的时候需要注意的是对中文的处理,loads方法如果传入的字符串的编码不是UTF-8的话,需要用e

    python中文手册

    Python中文手册(汉译) 前言 目录 1. 开胃菜 2. 使用Python解释器 2.1 调用解释器 2.1.1 传递参数 2.1.2 交互模式 2.2 解释器及其工作模式 2.2.1 错误处理 2.2.2 执行 Python 脚本 2.2.3 源程序编码 2.2.4 交互环境的...

    Python教程2.doc

    1)数据类型和变量 Python可以处理的数据类型:整数;浮点数;字符串; 布尔值(ture or fasle)布尔值可以用and、or、not运算;空值(none,不等于零) 变量:变量名必须是大小写英文、数字和_的组合,且不能用数字...

Global site tag (gtag.js) - Google Analytics