立即注冊(cè) 找回密碼

QQ登錄

只需一步,快速開始

查看: 1525|回復(fù): 0
打印 上一主題 下一主題

[Discuz 通用教程] 深入 Python 解釋器源碼,我終于搞明白了字符串駐留的原理

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2023-2-22 10:37:33 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
道勤網(wǎng)-數(shù)據(jù)bmrsportswear.com

親注冊(cè)登錄道勤網(wǎng)-可以查看更多帖子內(nèi)容哦。ò蕡D片、文字詳情等)請(qǐng)您及時(shí)注冊(cè)登錄-bmrsportswear.com

您需要 登錄 才可以下載或查看,沒有賬號(hào)?立即注冊(cè)

x
深入 Python 解釋器源碼,我終于搞明白了字符串駐留的原理

聲明:本翻譯是出于交流學(xué)習(xí)的目的,基于 CC BY-NC-SA 4.0 授權(quán)協(xié)議。為便于閱讀,內(nèi)容略有改動(dòng)。

每種編程語(yǔ)言為了表現(xiàn)出色,并且實(shí)現(xiàn)卓越的性能,都需要有大量編譯器級(jí)與解釋器級(jí)的優(yōu)化。

由于字符串是任何編程語(yǔ)言中不可或缺的一個(gè)部分,因此,如果有快速操作字符串的能力,就可以迅速地提高整體的性能。

在本文中,我們將深入研究 Python 的內(nèi)部實(shí)現(xiàn),并了解 Python 如何使用一種名為字符串駐留(String Interning)的技術(shù),實(shí)現(xiàn)解釋器的高性能。 本文的目的不僅在于介紹 Python 的內(nèi)部知識(shí),而且還旨在使讀者能夠輕松地瀏覽 Python 的源代碼;因此,本文中將有很多出自 CPython 的代碼片段。

全文提綱如下:

1、什么是 “字符串駐留”?

字符串駐留是一種編譯器 / 解釋器的優(yōu)化方法,它通過緩存一般性的字符串,從而節(jié)省字符串處理任務(wù)的空間和時(shí)間。

這種優(yōu)化方法不會(huì)每次都創(chuàng)建一個(gè)新的字符串副本,而是僅為每個(gè)適當(dāng)?shù)?/i>不可變值保留一個(gè)字符串副本,并使用指針引用之。

每個(gè)字符串的唯一拷貝被稱為它的 intern,并因此而得名 String Interning。

Python 貓注:String Interning 一般被譯為 “字符串駐留” 或 “字符串留用”,在某些語(yǔ)言中可能習(xí)慣用 String Pool(字符串常量池)的概念,其實(shí)是對(duì)同一種機(jī)制的不同表述。intern 作為名詞時(shí),是 “實(shí)習(xí)生、實(shí)習(xí)醫(yī)生” 的意思,在此可以理解成 “駐留物、駐留值”。

查找字符串 intern 的方法可能作為公開接口公開,也可能不公開。現(xiàn)代編程語(yǔ)言如 Java、Python、PHP、Ruby、Julia 等等,都支持字符串駐留,以使其編譯器和解釋器做到高性能。

2、為什么要駐留字符串?

字符串駐留提升了字符串比較的速度。 如果沒有駐留,當(dāng)我們要比較兩個(gè)字符串是否相等時(shí),它的時(shí)間復(fù)雜度將上升到 O (n),即需要檢查兩個(gè)字符串中的每個(gè)字符,才能判斷出它們是否相等。

但是,如果字符串是固定的,由于相同的字符串將使用同一個(gè)對(duì)象引用,因此只需檢查指針是否相同,就足以判斷出兩個(gè)字符串是否相等,不必再逐一檢查每個(gè)字符。由于這是一個(gè)非常普遍的操作,因此,它被典型地實(shí)現(xiàn)為指針相等性校驗(yàn),僅使用一條完全沒有內(nèi)存引用的機(jī)器指令。

字符串駐留減少了內(nèi)存占用。 Python 避免內(nèi)存中充斥多余的字符串對(duì)象,通過享元設(shè)計(jì)模式共享和重用已經(jīng)定義的對(duì)象,從而優(yōu)化內(nèi)存占用。

3、Python 的字符串駐留

像大多數(shù)其它現(xiàn)代編程語(yǔ)言一樣,Python 也使用字符串駐留來提高性能。在 Python 中,我們可以使用 is 運(yùn)算符,檢查兩個(gè)對(duì)象是否引用了同一個(gè)內(nèi)存對(duì)象。

因此,如果兩個(gè)字符串對(duì)象引用了相同的內(nèi)存對(duì)象,則 is 運(yùn)算符將得出 True,否則為 False。

  1. >>> 'python' is 'python'
  2. True
復(fù)制代碼

我們可以使用這個(gè)特定的運(yùn)算符,來判斷哪些字符串是被駐留的。在 CPython 的,字符串駐留是通過以下函數(shù)實(shí)現(xiàn)的,聲明在 unicodeobject.h 中,定義在 unicodeobject.c 中。

  1. PyAPI_FUNC(void) PyUnicode_InternInPlace(PyObject **);
復(fù)制代碼

為了檢查一個(gè)字符串是否被駐留,CPython 實(shí)現(xiàn)了一個(gè)名為 PyUnicode_CHECK_INTERNED 的宏,同樣是定義在 unicodeobject.h 中。

這個(gè)宏表明了 Python 在 PyASCIIObject 結(jié)構(gòu)中維護(hù)著一個(gè)名為 interned 的成員變量,它的值表示相應(yīng)的字符串是否被駐留。

  1. #define PyUnicode_CHECK_INTERNED(op) \
  2.     (((PyASCIIObject *)(op))->state.interned)
復(fù)制代碼
4、字符串駐留的原理

在 CPython 中,字符串的引用被一個(gè)名為 interned 的 Python 字典所存儲(chǔ)、訪問和管理。 該字典在第一次調(diào)用字符串駐留時(shí),被延遲地初始化,并持有全部已駐留字符串對(duì)象的引用。

4.1 如何駐留字符串?

負(fù)責(zé)駐留字符串的核心函數(shù)是 PyUnicode_InternInPlace,它定義在 unicodeobject.c 中,當(dāng)調(diào)用時(shí),它會(huì)創(chuàng)建一個(gè)準(zhǔn)備容納所有駐留的字符串的字典 interned,然后登記入?yún)⒅械膶?duì)象,令其鍵和值都使用相同的對(duì)象引用。

以下函數(shù)片段顯示了 Python 實(shí)現(xiàn)字符串駐留的過程。

  1. void
  2. PyUnicode_InternInPlace(PyObject **p)
  3. {
  4.     PyObject *s = *p;

  5.     .........

  6.     // Lazily build the dictionary to hold interned Strings
  7.     if (interned == NULL) {
  8.         interned = PyDict_New();
  9.         if (interned == NULL) {
  10.             PyErr_Clear();
  11.             return;
  12.         }
  13.     }

  14.     PyObject *t;

  15.     // Make an entry to the interned dictionary for the
  16.     // given object
  17.     t = PyDict_SetDefault(interned, s, s);

  18.     .........
  19.    
  20.     // The two references in interned dict (key and value) are
  21.     // not counted by refcnt.
  22.     // unicode_dealloc() and _PyUnicode_ClearInterned() take
  23.     // care of this.
  24.     Py_SET_REFCNT(s, Py_REFCNT(s) - 2);

  25.     // Set the state of the string to be INTERNED
  26.     _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
  27. }
復(fù)制代碼
4.2 如何清理駐留的字符串?

清理函數(shù)從 interned 字典中遍歷所有的字符串,調(diào)整這些對(duì)象的引用計(jì)數(shù),并把它們標(biāo)記為 NOT_INTERNED,使其被垃圾回收。一旦所有的字符串都被標(biāo)記為 NOT_INTERNED,則 interned 字典會(huì)被清空并刪除。

這個(gè)清理函數(shù)就是_PyUnicode_ClearInterned,在 unicodeobject.c 中定義。

  1. void
  2. _PyUnicode_ClearInterned(PyThreadState *tstate)
  3. {
  4.     .........

  5.     // Get all the keys to the interned dictionary
  6.     PyObject *keys = PyDict_Keys(interned);

  7.     .........

  8.     // Interned Unicode strings are not forcibly deallocated;
  9.     // rather, we give them their stolen references back
  10.     // and then clear and DECREF the interned dict.

  11.     for (Py_ssize_t i = 0; i < n; i++) {
  12.         PyObject *s = PyList_GET_ITEM(keys, i);

  13.         .........

  14.         switch (PyUnicode_CHECK_INTERNED(s)) {
  15.         case SSTATE_INTERNED_IMMORTAL:
  16.             Py_SET_REFCNT(s, Py_REFCNT(s) + 1);
  17.             break;
  18.         case SSTATE_INTERNED_MORTAL:
  19.             // Restore the two references (key and value) ignored
  20.             // by PyUnicode_InternInPlace().
  21.             Py_SET_REFCNT(s, Py_REFCNT(s) + 2);
  22.             break;
  23.         case SSTATE_NOT_INTERNED:
  24.             /* fall through */
  25.         default:
  26.             Py_UNREACHABLE();
  27.         }

  28.         // marking the string to be NOT_INTERNED
  29.         _PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED;
  30.     }

  31.     // decreasing the reference to the initialized and
  32.     // access keys object.
  33.     Py_DECREF(keys);

  34.     // clearing the dictionary
  35.     PyDict_Clear(interned);

  36.     // clearing the object interned
  37.     Py_CLEAR(interned);
  38. }
復(fù)制代碼
5、字符串駐留的實(shí)現(xiàn)

既然了解了字符串駐留及清理的內(nèi)部原理,我們就可以找出 Python 中所有會(huì)被駐留的字符串。

為了做到這點(diǎn),我們要做的就是在 CPython 源代碼中查找 PyUnicode_InternInPlace 函數(shù)的調(diào)用,并查看其附近的代碼。下面是在 Python 中關(guān)于字符串駐留的一些有趣的發(fā)現(xiàn)。

5.1 變量、常量與函數(shù)名

CPython 對(duì)常量(例如函數(shù)名、變量名、字符串字面量等)執(zhí)行字符串駐留。

以下代碼出自 codeobject.c,它表明在創(chuàng)建新的 PyCode 對(duì)象時(shí),解釋器將對(duì)所有編譯期的常量、名稱和字面量進(jìn)行駐留。

  1. PyCodeObject *
  2. PyCode_NewWithPosOnlyArgs(int argcount, int posonlyargcount, int kwonlyargcount,
  3.                           int nlocals, int stacksize, int flags,
  4.                           PyObject *code, PyObject *consts, PyObject *names,
  5.                           PyObject *varnames, PyObject *freevars, PyObject *cellvars,
  6.                           PyObject *filename, PyObject *name, int firstlineno,
  7.                           PyObject *linetable)
  8. {

  9.     ........

  10.     if (intern_strings(names) < 0) {
  11.         return NULL;
  12.     }

  13.     if (intern_strings(varnames) < 0) {
  14.         return NULL;
  15.     }

  16.     if (intern_strings(freevars) < 0) {
  17.         return NULL;
  18.     }

  19.     if (intern_strings(cellvars) < 0) {
  20.         return NULL;
  21.     }

  22.     if (intern_string_constants(consts, NULL) < 0) {
  23.         return NULL;
  24.     }

  25.     ........

  26. }
復(fù)制代碼
5.2 字典的鍵

CPython 還會(huì)駐留任何字典對(duì)象的字符串鍵。

當(dāng)在字典中插入元素時(shí),解釋器會(huì)對(duì)該元素的鍵作字符串駐留。以下代碼出自 dictobject.c,展示了實(shí)際的行為。

有趣的地方:在 PyUnicode_InternInPlace 函數(shù)被調(diào)用處有一條注釋,它問道,我們是否真的需要對(duì)所有字典中的全部鍵進(jìn)行駐留?

  1. int
  2. PyDict_SetItemString(PyObject *v, const char *key, PyObject *item)
  3. {
  4.     PyObject *kv;
  5.     int err;
  6.     kv = PyUnicode_FromString(key);
  7.     if (kv == NULL)
  8.         return -1;

  9.     // Invoking String Interning on the key
  10.     PyUnicode_InternInPlace(&kv); /* XXX Should we really? */

  11.     err = PyDict_SetItem(v, kv, item);
  12.     Py_DECREF(kv);
  13.     return err;
  14. }
復(fù)制代碼
5.3 任何對(duì)象的屬性

Python 中對(duì)象的屬性可以通過 setattr 函數(shù)顯式地設(shè)置,也可以作為類成員的一部分而隱式地設(shè)置,或者在其數(shù)據(jù)類型中預(yù)定義。

CPython 會(huì)駐留所有這些屬性名,以便實(shí)現(xiàn)快速查找。 以下是函數(shù) PyObject_SetAttr 的代碼片段,該函數(shù)定義在文件 object.c 中,負(fù)責(zé)為 Python 對(duì)象設(shè)置新屬性。

  1. int
  2. PyObject_SetAttr(PyObject *v, PyObject *name, PyObject *value)
  3. {

  4.     ........

  5.     PyUnicode_InternInPlace(&name);

  6.     ........
  7. }
復(fù)制代碼
5.4 顯式地駐留

Python 還支持通過 sys 模塊中的 intern 函數(shù)進(jìn)行顯式地字符串駐留。

當(dāng)使用任何字符串對(duì)象調(diào)用此函數(shù)時(shí),該字符串對(duì)象將被駐留。以下是 sysmodule.c 文件的代碼片段,它展示了在 sys_intern_impl 函數(shù)中的字符串駐留過程。

  1. static PyObject *
  2. sys_intern_impl(PyObject *module, PyObject *s)
  3. {

  4.     ........

  5.     if (PyUnicode_CheckExact(s)) {
  6.         Py_INCREF(s);
  7.         PyUnicode_InternInPlace(&s);
  8.         return s;
  9.     }

  10.     ........
  11. }
復(fù)制代碼
6、字符串駐留的其它發(fā)現(xiàn)

只有編譯期的字符串會(huì)被駐留。 在解釋時(shí)或編譯時(shí)指定的字符串會(huì)被駐留,而動(dòng)態(tài)創(chuàng)建的字符串則不會(huì)。

Python 貓注:這一條規(guī)則值得展開思考,我曾經(jīng)在上面踩過坑…… 有兩個(gè)知識(shí)點(diǎn),我相信 99% 的人都不知道:字符串的 join () 方法是動(dòng)態(tài)創(chuàng)建字符串,因此其創(chuàng)建的字符串不會(huì)被駐留;常量折疊機(jī)制也發(fā)生在編譯期,因此有時(shí)候容易把它跟字符串駐留搞混淆。推薦閱讀《join () 方法的神奇用處與 Intern 機(jī)制的軟肋

包含 ASCII 字符和下劃線的字符串會(huì)被駐留。 在編譯期間,當(dāng)對(duì)字符串字面量進(jìn)行駐留時(shí),CPython 確保僅對(duì)匹配正則表達(dá)式 [a-zA-Z0-9_]* 的常量進(jìn)行駐留,因?yàn)樗鼈兎浅YN近于 Python 的標(biāo)識(shí)符。

Python 貓注:關(guān)于 Python 中標(biāo)識(shí)符的命名規(guī)則,在 Python2 版本只有 “字母、數(shù)字和下劃線”,但在 Python 3.x 版本中,已經(jīng)支持 Unicode 編碼。這部分內(nèi)容推薦閱讀《醒醒!Python 已經(jīng)支持中文變量名啦!

參考材料


道勤主機(jī)提供365天*24小時(shí)全年全天無休、實(shí)時(shí)在線、零等待的售后技術(shù)支持。竭力為您免費(fèi)處理您在使用道勤主機(jī)過程中所遇到的一切問題! 如果您是道勤主機(jī)用戶,那么您可以通過QQ【792472177】、售后QQ【59133755】、旺旺【詮釋意念】、微信:q792472177免費(fèi)電話、后臺(tái)提交工單這些方式聯(lián)系道勤主機(jī)客服! 如果您不是我們的客戶也沒問題,點(diǎn)擊頁(yè)面最右邊的企業(yè)QQ在線咨詢圖標(biāo)聯(lián)系我們并購(gòu)買后,我們?yōu)槟赓M(fèi)進(jìn)行無縫搬家服務(wù),讓您享受網(wǎng)站零訪問延遲的遷移到道勤主機(jī)的服務(wù)!
本內(nèi)容系 道勤團(tuán)隊(duì) bmrsportswear.com 客服與技術(shù)人員研究整理的智慧結(jié)晶,轉(zhuǎn)載勿用于商業(yè)用途,并保留本文鏈接,侵權(quán)必究!
dsu_marcocopyright:copy_link 

【道勤網(wǎng)】- bmrsportswear.com 軟件視頻自學(xué)教程|免費(fèi)教程|自學(xué)電腦|3D教程|平面教程|影視動(dòng)畫教程|辦公教程|機(jī)械設(shè)計(jì)教程|網(wǎng)站設(shè)計(jì)教程!【道勤網(wǎng)】 - 論壇版權(quán)1、本主題所有言論和圖片純屬會(huì)員個(gè)人意見,與本論壇立場(chǎng)無關(guān)
2、本站所有主題由該帖子作者發(fā)表,該帖子作者與【道勤網(wǎng)】- bmrsportswear.com 軟件視頻自學(xué)教程|免費(fèi)教程|自學(xué)電腦|3D教程|平面教程|影視動(dòng)畫教程|辦公教程|機(jī)械設(shè)計(jì)教程|網(wǎng)站設(shè)計(jì)教程!【道勤網(wǎng)】享有帖子相關(guān)版權(quán)
3、其他單位或個(gè)人使用、轉(zhuǎn)載或引用本文時(shí)必須同時(shí)征得該帖子作者和【道勤網(wǎng)】- bmrsportswear.com 軟件視頻自學(xué)教程|免費(fèi)教程|自學(xué)電腦|3D教程|平面教程|影視動(dòng)畫教程|辦公教程|機(jī)械設(shè)計(jì)教程|網(wǎng)站設(shè)計(jì)教程!【道勤網(wǎng)】的同意
4、帖子作者須承擔(dān)一切因本文發(fā)表而直接或間接導(dǎo)致的民事或刑事法律責(zé)任
5、本帖部分內(nèi)容轉(zhuǎn)載自其它媒體,但并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)
6、如本帖侵犯到任何版權(quán)問題,請(qǐng)立即告知本站,本站將及時(shí)予與刪除并致以最深的歉意
7、【道勤網(wǎng)】- bmrsportswear.com 軟件視頻自學(xué)教程|免費(fèi)教程|自學(xué)電腦|3D教程|平面教程|影視動(dòng)畫教程|辦公教程|機(jī)械設(shè)計(jì)教程|網(wǎng)站設(shè)計(jì)教程!【道勤網(wǎng)】管理員和版主有權(quán)不事先通知發(fā)貼者而刪除本文

本版積分規(guī)則

關(guān)閉

道勤網(wǎng)- 推薦內(nèi)容!上一條 /2 下一條

!jz_fbzt! !jz_sgzt! !jz_xgzt! 快速回復(fù) !jz_fhlb! !jz_lxwm! !jz_gfqqq!

關(guān)于我們|手機(jī)版|小黑屋|地圖|【道勤網(wǎng)】-bmrsportswear.com 軟件視頻自學(xué)教程|免費(fèi)教程|自學(xué)電腦|3D教程|平面教程|影視動(dòng)畫教程|辦公教程|機(jī)械設(shè)計(jì)教程|網(wǎng)站設(shè)計(jì)教程【道勤網(wǎng)】 ( 皖I(lǐng)CP備15000319號(hào)-1 )

GMT+8, 2024-10-23 09:32

Powered by DaoQin! X3.4 © 2016-2063 Dao Qin & 道勤科技

快速回復(fù) 返回頂部 返回列表