python中的编码问题

个人速记

1. python3 和python2 的区别

python3 中有两种表示字符序列的类型:bytes 和 str

  • bytes 字节流,即原始的8个二进制位,又名‘二进制字节流’
  • str:unicode字符

Python2 中表示字符序列的类型为:str 和 unicode

  • str:实为字节流,对应python3中的bytes
  • unicode:unicode字符

注意:python2和3中的unicode都没有和任何特定的二进制编码形式相关联,要想把unicode字符转换为二进制数据,必须要用encode方法,把二进制数据转换为unicode字符,必须要用decode方法。

解码(需要有二进制编码):计算机是如何知道00110011对应‘a’呢?这就需要进行解码
编码(得到二进制编码):将a编码为00110011

2. unicode 、utf-8 、二进制三者之间的区别

  • unicode

unicode只是一个符号集,它只规定了符号的二进制代码,没有规定这个二进制代码如何存储。
unicode编码系统是为表达任意语言而设计的,为了防止存储上的冗余(比如,对应ascii码的部分),其采用了变长编码,但变长编码给解码带来了困难,无法判断是几个字节表示一个字符

  • utf-8
    是针对unicode变长编码设计的一种前缀码,根据前缀可判断unicode中的几个字节表示一个字符。

    ‘严’的 Unicode 是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,严的 UTF-8 编码是11100100 10111000 10100101,转换成十六进制就是E4B8A5。

一句话:
unicode只是一个符号集,只规定了符号的二进制代码;
而utf-8是针对unicode变长编码设计的一种前缀码,可以理解为是一种unicode的存储机制,是unicode的一种实现方式之一。

3. python中的编码和解码
以python2为例
解码:str.decode('utf-8') ,将字节流按照给定的解码方式utf8解码,并转换为unicode。
编码:u.encode('utf-8'),将unicode字符按照给定的编码方式转化为字节流str。

参考(区分先后):

  1. https://www.cnblogs.com/shine-lee/p/4504559.html
  2. http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
全部评论

相关推荐

2025-12-12 19:58
哔哩哔哩_产品运营
跟同事聊天时候,同事说“你刚来时候blabla”,突然意识到自己已经正式工作一年多了!就这么从脆皮内耗大学生逐渐磨练成厚血条(厚脸皮)工位主理人。秋招简历当然也是投了不少份,但总有一些机会要留给自己的白月光,比如阿B,说说我秋招选择阿B的理由吧:1. “为爱发电”:说来兴趣真的是初心,阿B在手机陪我看了那么多番剧vlog学习视频,当然想和它距离更近一些。来了之后发现,B站重要活动要专门走内宣是有原因的,身边的六级大佬绝对不在少数。2. 实习体验感拉满:嗯对其实等不到正式工作就先来实习体验了。实习期在一个非常好的组,大家都很年轻氛围超好,做事情讲背景、讲逻辑不会只丢脏活累活。平时聊得来,工作起来也能快速打配合,项目完成时候所有人都成就感满满。再说说来正式工作之后的体验感:1. 校招生mentor文化很需要:在阿B每个校招生入职都是会有一位mentor的,不会让大家有刚工作人生地不熟就孤苦一人挑大梁的感觉。很幸运我的mt人真的超好,耐心温柔业务能力又很强。常常在对需求听她帮我说话时看着她身上闪耀的光芒想要流泪。有mt的话landing期会顺畅很多。公司也会安排一些活动帮助mentor和mentee增进感情。2.小动物们和各类活动是回血剂:工作起来当然难免遇到一些磕磕磨磨,但是压力大时候转头看到想悄悄溜过的小猫摸上一把,真的会治愈不少。还有节假日的各种活动和扫楼活动,真的会给上班增加动力。最后上图!没有任何工作会让人一直开心吧,但阿B你在照顾员工心情这一块儿做得真的很不错。
哔哩哔哩公司福利 915人发布
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务