Lua5.1源码分析——String

lua中的所有对象数据都用一个union Value来表示

/*
** Union of all Lua values
*/
typedef union {
  GCObject *gc;    //所有的GC对象
  void *p;                  // light userdata
  lua_Number n;    //lua_Number实际就是double
  int b;                      //布尔值
} Value;

由这个结构可以看出,除了lightuserdata, number, boolean外,其它对象都是gc管理的对象。GCObject也是一个union,包含了lua中的其它对象类型。

/*
** Union of all collectable objects
*/
union GCObject {
  GCheader gch;
  union TString ts;
  union Udata u;
  union Closure cl;
  struct Table h;
  struct Proto p;
  struct UpVal uv;
  struct lua_State th;  /* thread */
};

lua中通常用TValue来表示一个对象,这是一个struct,包含了一个Value和一个int tt,这个值用来标志Value中存储的是哪一类数据。

/*
** Tagged Values
*/

#define TValuefields	Value value; int tt

typedef struct lua_TValue {
  TValuefields;
} TValue;

所有的GCObject都用一个链表串接起来,在GC的时候遍历。

/*
** Union of all collectable objects
*/
typedef union GCObject GCObject;


/*
** Common Header for all collectable objects (in macro form, to be
** included in other objects)
*/
#define CommonHeader	GCObject *next; lu_byte tt; lu_byte marked


/*
** Common header in struct form
*/
typedef struct GCheader {
  CommonHeader;
} GCheader;

上面是每个GC对象都有的结构,next指针指向上一个生成的GC对象,tt表示当前gc对象的类型,marked用于gc过程中。

下面是String对象的结构。

/*
** String headers for string table
*/
typedef union TString {
  L_Umaxalign dummy;  /* ensures maximum alignment for strings */
  struct {
    CommonHeader;
    lu_byte reserved; //用来加速判断是否为保留字
    unsigned int hash; //改string的hash值
    size_t len; //string的长度
  } tsv;
} TString;

字符串的数据内容并没有被分配独立一块内存来保存,而是直接最加在 TString 结构的后面。用这个宏就可以取到实际的字符串指针。

#define getstr(ts)	cast(const char *, (ts) + 1)

lua中的字符串一旦创建就不可改变,如果没有任何对该字符串的引用,该字符串就会被gc回收,lua中相同的字符串只存储一份,这个被称为字符串的内部化。内部化的优点在于字符串比较时直接比较字符串的地址就能知道是否相等,而不用逐字符比较。所有字符串均被存放在全局表(global_State)的strt域中。strt是 string table 的简写,它是一个哈希表。关于String操作的代码在 lstring.h 和 lstring.c 中。下面是 lstring.h 中 string 操作相关的函数定义。

//计算一个string占用的内存,TString的大小加上实际存储的字符串大小,最后还有个'\0'
#define sizestring(s)	(sizeof(union TString)+((s)->len+1)*sizeof(char))

//两个创建string对象的宏,实际调用 luaS_newlstr
#define luaS_new(L, s)	(luaS_newlstr(L, s, strlen(s)))
#define luaS_newliteral(L, s)	(luaS_newlstr(L, "" s, (sizeof(s)/sizeof(char))-1))

//这个宏用来设置marked标志,防止该string被gc回收
#define luaS_fix(s)	l_setbit((s)->tsv.marked, FIXEDBIT)

//在存储string的hash表大小不够时扩大hash表大小
LUAI_FUNC void luaS_resize (lua_State *L, int newsize);

//new string
LUAI_FUNC TString *luaS_newlstr (lua_State *L, const char *str, size_t l);

下面是  luaS_newlstr 的实现

TString *luaS_newlstr (lua_State *L, const char *str, size_t l) {
  GCObject *o;

 //计算 str 的 hash 值
  unsigned int h = cast(unsigned int, l);  /* seed */
  size_t step = (l>>5)+1;  /* if string is too long, don't hash all its chars */
  size_t l1;
  for (l1=l; l1>=step; l1-=step)  /* compute hash */
    h = h ^ ((h<<5)+(h>>2)+cast(unsigned char, str[l1-1]));

//遍历strt表相同hash值的字符串
  for (o = G(L)->strt.hash[lmod(h, G(L)->strt.size)];
       o != NULL;
       o = o->gch.next) {
    TString *ts = rawgco2ts(o);   //将GCObject转换为TString
    if (ts->tsv.len == l && (memcmp(str, getstr(ts), l) == 0)) {  //如果表中已经存在该字符串,则直接返回
      /* string may be dead */
      if (isdead(G(L), o)) changewhite(o);   //防止gc
      return ts;
    }
  }
//如果系统中还没有这个字符串,则new一个出来
  return newlstr(L, str, l, h);  /* not found */ 
}

//实际创建string的函数,参数为字符串str,长度l,hash值 h
static TString *newlstr (lua_State *L, const char *str, size_t l,
                                       unsigned int h) {
  TString *ts;
  stringtable *tb;
//检查是不是有足够的内存可用,没有则抛出异常
  if (l+1 > (MAX_SIZET - sizeof(TString))/sizeof(char))
    luaM_toobig(L);
//申请一块内存,大小为 str 大小 加 TString 大小
  ts = cast(TString *, luaM_malloc(L, (l+1)*sizeof(char)+sizeof(TString)));
//填充TString
  ts->tsv.len = l;
  ts->tsv.hash = h;
  ts->tsv.marked = luaC_white(G(L));
  ts->tsv.tt = LUA_TSTRING;
  ts->tsv.reserved = 0;
//copy str 到 TString 后面
  memcpy(ts+1, str, l*sizeof(char));
//末尾加0以兼容c string
  ((char *)(ts+1))[l] = '\0';  /* ending 0 */
  tb = &G(L)->strt;   //全局字符串hash表
// 找到hash表中对应hash值的链表头
  h = lmod(h, tb->size);  
//将新string插入链表头
  ts->tsv.next = tb->hash[h];  /* chain new entry */
  tb->hash[h] = obj2gco(ts);
//增加hash表的使用数量
  tb->nuse++;
//如果hash表不够大,并且可以扩大,就将该表扩大一倍
  if (tb->nuse > cast(lu_int32, tb->size) && tb->size <= MAX_INT/2)
    luaS_resize(L, tb->size*2);  /* too crowded */
//返回新生成的TString
  return ts;
}

最后是 luaS_resize 的实现

typedef struct stringtable {
  GCObject **hash;
  lu_int32 nuse;  /* number of elements */
  int size;
} stringtable;


void luaS_resize (lua_State *L, int newsize) {
  GCObject **newhash;
  stringtable *tb;
  int i;
//在gc的sweep阶段,不扩大hash表
  if (G(L)->gcstate == GCSsweepstring)
    return;  /* cannot resize during GC traverse */
  //新生成一个表
  newhash = luaM_newvector(L, newsize, GCObject *);
  tb = &G(L)->strt;
  for (i=0; i<newsize; i++) newhash[i] = NULL;  //初始化新表
  /* rehash   将原表的字符串重新hash分配到新表中*/
  for (i=0; i<tb->size; i++) {
    GCObject *p = tb->hash[i];
    while (p) {  /* for each node in the list */
      GCObject *next = p->gch.next;  /* save next */
      unsigned int h = gco2ts(p)->hash;
      int h1 = lmod(h, newsize);  /* new position */
      lua_assert(cast_int(h%newsize) == lmod(h, newsize));
      p->gch.next = newhash[h1];  /* chain it */
      newhash[h1] = p;
      p = next;
    }
  }
//释放原表内存
  luaM_freearray(L, tb->hash, tb->size, TString *);
//替换新表
  tb->size = newsize;
  tb->hash = newhash;
}

 

 

  • Posted in: Lua