跳到主要內容

[python] unicode 編碼問題

備份一下十分實用的文章

在解釋 utf-8 編碼上面相當實用~





參考文章

Python之Unicode問題
這幾天拿了一個題目自己練習寫python,才發現cpython是使用ascii來處理字串,對於unicode處理較不拿手。在這邊介紹一些python中使用unicode的方法。

首先要先確認使用的是script或是直譯器
script就要確認文件的編碼,直譯器則要確定所使用的shell的環境。

使用script的話,在一開始文件編輯列,要先加入宣告,文件編輯軟體(如vi等)才會儲存為UTF-8字元。

# -*- coding: <encoding name>-*-


例如下面這行就可以宣告本文件應以UTF-8格式儲存:

# -*- coding: utf-8 -*-

這邊可以參考以下網址

若是使用直譯器,就要確定shell的環境變數LANG。

配置字串的時候,將字串配置為unicode格式:
如果LANG=zh_TW.UTF-8:

unicode_str =  unicode('這是中文', 'utf-8')


如果LANG=zh_TW.BIG5:

unicode_str = unicode('這是中文', 'big5')


windows中則shell的環境一定為big5:


也有比較簡單的方法,無論LANG變數為何都可以運作:

unicode_str =  u'這是中文'

之後檢查

>>> type(unicode_str)
(type 'unicode')

如果想要用big5顯示,可以這樣做

print unicode('這是中文', 'utf-8').decode('big5')


另外,raw_input()這個功能也有一些問題

raw_input(u'Please input')
raw_input(u'請輸入')

前者會成功,後者卻會失敗
筆者猜想可能是raw_input依然使用ascii來處理字串的關係。
唯一解決方法就是不要讓raw_input裡面塞入unicode的中文了。


在網站上也另外看到一個文件:

http://czug.org/blog/eishn/sqlobject-dezhongwenbianmawentijijiejuefangan

簡單來說,sys這個module原本有setdefaultencoding這個function,但在啟動腳本setting.py中卻被刪除了。而這個功能可以經由reload(sys)來啟用。

因此可以在script開始時這樣寫入:

import sys
if sys.getdefaultencoding() != 'utf-8':
    reload(sys)
    sys.setdefaultencoding('utf-8')

很多問題就可以解決囉!

參考網址:
http://evanjones.ca/python-utf8.html

留言

這個網誌中的熱門文章

[python] 使用 python 控制 docx 範例

因為同事的需求,無職 a 我就又再度幫忙同事寫一些小程式。 這些小程式雖然簡單,但是聽到如果不幫忙寫程式解決,以手工作業的"大量人天" 的後果真的是讓人吐血。 他們有一份工作,需要產出一份很多很多很多資料圖片的判釋報告,要把數百張圖片剪裁成特定大小,加上圖說之後放入 word 裡面。 聽到的做法是...一張一張插圖!! wooow! That's really shocking me! 所以為了前公司同事的幸福,我還是加減寫一下好了。

[電銲] 自己的 IMU 自己焊!笨蛋的焊接法!

工程師真的是被要求包山包海都要會... IMU的組件被要求不能只插麵包板,要 "穩固的固定在另外製作的盒子裡",反正就是搞得跟外面幾十萬上下的 IMU 一樣精緻就是了。 好好好都焊給你~ 呃 對了 怎麼焊哈哈哈哈 ^^" 電焊這種技術自從上過國中的生活科技後就再也沒再用了@@,好家在這是個網路就是你家的時代,立刻上網查一查,找到一些關於焊槍使用的相關資料。 被要求說GY-91不能只接麵包板一定焊死才穩固所以就這樣接了

[RaspberryPI] 一鍵啟動 .py 文件

先講總結: 樹莓派君你好討厭啊啊啊啊! 今天把程式整理完之後,心血來潮,想要把 程式弄得更 "一鍵啟動" 一點。 也就是我只要用我的觸控螢幕一點,就可以直接打開寫好的 QT 介面做 IMU 和 相機的紀錄 親手烘培(?) 的 QT 介面