计量文体学导论
上QQ阅读APP看书,第一时间看更新

第三节 文体的计量特征

计量文体学作为完整的体系,其研究包括理论和应用两个层面。从应用层面讲,计量文体学主要解决文献和文学作品的那些与文体相关的实际问题,如:文学作品的风格差异分析、佚名作者的考证、作品剽窃的鉴定等等。我们所说的计量文体学理论层面的研究主要是指文体特征的把握研究和利用文体特征进行分析的统计学方法研究。这里的统计方法研究是指,如何利用已知的文体特征载体更加精确、更加快速、更加简便地计算分析文体的差别之所在,也就是找到更加合理的数学方法和理论,使得依靠这种数学方法和理论所开展的文体分析更加可靠和简便。这种理论研究主要突破点在数学方面,不属于人文研究的领域,因此,这里不对此做过多涉及。

但是,作家或者作品的特定风格或者是文体的主要载体是什么?这是文体学研究的最基本的问题,也是计量文体学的出发点。计量文体学的所有的统计分析必须建立在能够充分反映作家或者作品的写作风格的文体特征上。因此,文体特征的把握和分析,是我们必须要重视和深入探讨的计量文体学重要研究领域。根据『文章の計量』,有学者认为能够用于文体测量的文体特征项多达500多种(アンソニーケニイ,1996:13)。但是在文体测量中经常被采用,被认为是有效的文体特征项却很少,而且根据语种的不同,能够反映文章作者写作风格的语言特征既有共性,也有具有与语种相对应的独特特性。这里介绍几种学界已经归纳出来的文体特征。

1.3.1 文体的词长特征

计量文体学启蒙阶段,德・摩根认为作品的平均词长能够反映作家的写作特点,同一作家的不同作品其平均词长十分接近,而不同作家的作品的平均词长相差却很大。德・摩根以两位古希腊历史学家希罗多德(Herodotus,约公元前485—约公元前425)和修昔底德(Thucydides,约公元前460—公元前400)的著作为统计对象,对这两个作家用词的平均词长进行了统计。希罗多德著作第一卷的平均词长为5.624个字符,第二卷的平均词长为5.619;而修昔底德著作的第一卷和第二卷的平均词长分别是5.713和5.728。可见同一个作家的作品的平均词长是非常接近的,而不同作家作品的平均词长的差距要比同一作家作品间的平均词长的差距大得多。德・摩根对《新约》圣经圣保罗的前13封书信的统计结果是,其平均词长为5.428,而书信《至希伯来人》的平均词长为5.516。由于平均词长差距比较大,所以德・摩根认为,根据这个结果可以认为《致希伯来人》出自另外一个人之手。德・摩根的思想比较朴素、简单,但是,现在看来用这种差别来衡量作家的写作风格或者是文体特征的差别还是十分粗糙的,特别是当研究对象涉及多个作家的作品时,仅以平均词长恐怕很难区分出不同作家。

门登荷尔也认为作家所使用词汇的词长能够反映作家的写作特征。但是,门登荷尔所利用的词长特征不是简单取作家的平均词长,而是使用作家词长的分布特征来衡量作家的文体特征的。1887年门登荷尔在《科学》杂志上发表论文指出,可以根据词长及其出现的频率描绘特定作品的词的分布图,就像用光谱可以描述光的特征一样,用这种词长的分布——词谱可以分析文章的文体特征。门登荷尔在对莎士比亚的作品进行研究时发现,莎士比亚的作品无论是诗还是散文,其词长分布曲线是一致的,均呈现出莎士比亚独特的文体特征,莎士比亚作品中词长为4的单词出现频率最高,这与莎士比亚同时代的作家有明显的差别。此外,门登荷尔还对狄更斯、萨克雷、丹尼尔·笛福等多个作家的多部作品进行了统计分析,结果均表明词长的分布特征可以反映作家的文体特征。

但是,1975年威廉姆斯(Williams)在对门登荷尔的结论进行验证研究时发现,同一作家不同体裁的作品,如诗歌和散文,词长的分布也有可能不一样。威廉姆斯以莎士比亚、培根、锡德尼(Philip Sidney,1554—1586)为例,调查了莎士比亚的诗歌、培根的散文、锡德尼的诗歌和散文的词长分布。下图为其词长分布曲线图。

图1.1 培根、莎士比亚、锡德尼三位作家散文、诗歌词长分布

英语等西方语言,单词长度的取值范围比较大,其分布的多样性足以区分不同作者。同时,由于西方语言单词之间存在明显的界限,这也为利用词长分布作为文体特征进行文体的计量分析提供了很大的方便。但是,词长的分布能否有效区分汉语和日语这样的东方语言作家的文体是一个值得研究的问题。

由于日语书面语的连续书写特性以及计算机分词处理技术的限制,日本学界很少利用日语词长分布进行文体研究。但是,为了验证日语词长分布在日文文体特征的区分上到底是否有效,日本学者金明哲等还是在这方面做了一些尝试。

根据金明哲等著『言語と心理の統計』,金明哲选取了井上靖、中岛敦、三岛由纪夫等三位日本作家的作品为对象,用主成分分析的方法对这三位作家作品中的所有单词的词长信息进行了分析。以第一主成分的得分作为横轴,第二主成分的得分作为纵轴,绘制了三位作家作品的散点图。结果三岛由纪夫的作品和井上靖的作品没有能够有效地区分开来。

图1.2 井上靖、中岛敦、三岛由纪夫作品所有单词词长主成分分析图

由于有些词汇和文章内容存在密切的关系,如果用词长作为文体特征时,采用较多的与文章内容关系紧密的词汇信息,则不能很好地区分作品文体风格。这也是以文章中出现的所有单词词长为依据不能够很好区分日语文体风格的重要原因。为了克服这个问题,金明哲等利用与文章内容关系比较弱的动词的词长为依据,用同样的手法对上述三位作家的作品进行了主成分分析,结果发现日语文章中动词的词长能够有效地区分不同作家的写作风格。

图1.3 井上靖、中岛敦、三岛由纪夫作品动词词长散点图

利用词长分布进行文体研究的第一个瓶颈就是汉语和日语的词的界限的确定问题。汉语和日语书面语的单词之间没有天然的界限,而且句子分解成单词时,在不改变句子意义的情况下,可以有多种单词划分的可能性。尤其是汉语,比如“汉语计量文体学”可以分成“汉语/计量/文体/学/”,也可以划分成“汉语/计量/文体学/”,还可以划分成“汉语/计量文体学”,还可以整个作为一个词条。汉语句子中这种词的划定标准的不确定性,决定了词长及其发生频率统计的结果不可能是唯一的,因此对词长分布的描述很难达到文体分析的精确要求。另外,如果以尽量短为标准进行汉语句子的切分,那么现代汉语大多数为1字词和2字词,词长为1和2的单词出现的频率很高,词长的分布也很难反映出不同作家之间的文体差异。

为了说明这个问题,笔者选取了林语堂散文(约11万字)、苏童散文(约12万字)、朱自清散文(约9万字),用北京大学开发的汉语分词系统SLEX对其进行分词处理,用笔者开发的《汉日语料库通用分析工具》进行了词长的分布统计。其结果如下:

表1.1 林语堂、苏童、朱自清散文词长频率表

图1.4 三位作家词长分布图

从上述统计结果我们可以看出,汉语的词长一般在5个汉字以内。如果我们以词长的分布甄别文体的差异,那么我们只能从这五个点上观察作者在不同词长汉语词汇上的使用习惯。这就意味着以词长分布作为衡量文体的依据时,汉语比英语(英语词长通常在13个字符以内)要少将近2/3的观测点。另外,汉语使用频率最高的词汇是1字词和2字词,1字词和2字词覆盖了文章的97%以上,3字以上的汉字词只占文章的3%。由于3字以上的汉字词在文章中只占很小的比重,可以说3字词的使用差别微不足道,很难说明3字以上词汇的使用差别是否能够反映文体差别。由此我们可以看到,汉语的词长分布情况,只能在1字词和2字词的使用上观察到差别,而仅依靠这两个观测点来观测汉语文体的差异就显得比较粗糙,有时根本就看不到差别。这一点从对林语堂、苏童、朱自清散文的统计结果也可以看出。苏童和朱自清的词长分布曲线是重叠的,也就是说通过词长分布根本不能够判别朱自清和苏童文体上有何差异;而林语堂的词长分布曲线从3字词开始也和苏童、朱自清的重叠在一起。由此可见,由于汉语自身的特点,用词长的分布描述汉语的文体其有效性是值得进一步探讨的。

尤其是利用计算机进行这方面的研究,首先要解决汉语和日语的自动分词问题。

1.3.2 句子长度

根据金明哲、村上征胜等著『言語と心理の統計』,最早发现句子长度也可以体现作家的写作风格是Sherman(1888)。他认为英语文章的作者不同文章中句长的平均值会呈现出差异。统计学家尤尔(Yule)利用句长信息对中世纪西方宗教经典文学作品de Imitatione Christi[1]的作者进行了鉴定研究。Yule对该书句长的中位数和四分位数等统计量的统计分析表明,托马斯·厄·肯培(Thomas a Kempis,1380—?)所著的可能性要大于巴黎大学校长格尔森(Gerson,1363—1429)。也有学者(Wake 1957)以句子的长度信息为依据对柏拉图的《第七封书信》的真赝问题进行了鉴别。1965年Morton对希腊语散文的句长的分布进行了统计分析,结果发现同一作家在同一时代写的作品其句长分布基本是不变的。

另据金明哲等在上述文献中介绍,日本学者也对句子长度和日语文章文体风格的关系进行了分析。其中波多野完治对日语小说以及新闻文章句长分布进行的统计分析、安本美典、佐佐木和技等所进行的日语文章句长分布的正态性问题研究、桦岛忠夫对日语文章中句长的变化以及句长和汉字使用率的关系的研究等都是利用句子长度信息分析日语文体风格的代表性研究。

根据笔者对中国知网数据库所收录的1979年至2010年期间的学术资源的调查结果,利用句子长度信息对汉语文体风格进行深入统计分析的原创性文章几乎没有。其中有几篇介绍其他国家语言文体风格分析中句长信息运用的综述性文章,如杨群英(2006)。

为了调查汉语文章句子长度和作者写作风格之间的关系,笔者对中国现代三位作家的近20万字散文进行了统计分析。这些作家是沈从文、林语堂、朱自清。作品如下:

表1.2 三位作家作品样本表

英语句子长度的计算通常主要依靠计算其句号“.”之间的单词数。汉语句子结束时常常用“。”“!”“?”等三个标点符号,汉语的句子长度可以用句子中汉字的个数来衡量。首先笔者将这些作家的散文切分成句子单位。然后,以汉字个数为单位统计每个句子的长度以及每个长度句子的使用频率,进行句子长度的分布统计。

图1.5 三位作家句子长度分布

上图为林语堂、沈从文、朱自清三位作家散文句长分布图。从分布图上看,三位作家的句子长度分布曲线基本上重叠、交叉在一起,很难按照分布曲线对三位作家的风格进行区别。为了观察不同作家句长分布曲线和同一作家不同作品的句长分布曲线的差别,我们还分别对林语堂、沈从文、朱自清上述散文各自的句长分布情况也进行了统计。结果发现,这三位作家各自的句长分布曲线也是交织在一起的,同一作家不同作品分布曲线更加难以区分。下图是沈从文的《炉边》《往事》《我的小学教育》等三篇散文的句长分布图。

图1.6 沈从文三篇散文句长分布

由上述分析,我们可以看出,以“。”“!”“?”等三种标点符号作为汉语句子的认定标准,以汉字为单位所测量出的汉语作家句子长度信息中能够反映作家风格的信息非常有限,到目前为止,我们很难依靠这种特征来有效区分汉语作家的写作风格。如何利用汉语句子长度信息进行汉语作家风格的定量分析仍有许多需要克服的难题。

1.3.3 词性的分布特征

根据金明哲和村上征胜的上述文献,最早利用词性的分布特征进行文体研究的是Palme。Palme以名词、形容词以及否定表达方式的数量为统计对象,对100名英语作家作品进行统计,并用因子分析法对文章的风格特征进行了分析。日本利用词性的分布特征进行文体研究的学者比较多,成果也很多。日本学者安本美典用名词的使用频率、比喻的使用频率等15个统计项目,对100名日本现代作家的文章用因子分析的方法进行统计分析,认为这100名作家的写作风格基本可以分成8大类别。1965年桦岛忠夫、寿岳章子也利用品词的使用频率作为统计对象对100名作家的作品进行了分析,认为100名作家之间名词使用率的差异比较大。另外这两位学者还以名词频率、MVR(形容词、形容动词、副词、连体词等的数量和动词数量比的百分数)、指示代词的频率、汉字词频率、句子长度、会话频率、色彩词的使用频率、象声词的使用频率等作为测量文章风格的尺度对这一百名作家的写作特点进行了对比研究。

汉语曾有学者利用品词的使用特点来区分口语体文章和新闻体文章。黄伟、刘海涛(2009)经过对中央电视台的两个栏目“新闻联播”和“实话实说”的书面材料的统计分析发现,这两个栏目的品词使用存在显著差异。“实话实说”中副词、代词、助词等的使用率明显高于“新闻联播”;而名词的使用率“新闻联播”却明显高于“实话实说”。

表1.3“实话实说”“新闻联播”品词频率均值及标准差[2]

为了检验这些品词使用特征在区别口语体文章和新闻体文章时的有效性,黄伟等还使用包括这些品词特征在内的16个语言结构特征作为特征向量,利用统计学的聚类方法对来自“实话实说”“新闻联播”“北京新闻”“鲁豫有约”“人民日报”以及小说、学术论文等文体的21个文本进行了聚类分析。经过多次实验分析发现以名词、代词、副词、句首副词、句首名词为主的7个特征能够准确区分汉语的口语体和书面语体。

1.3.4 文体标志性词汇和功能词的使用习惯

所谓文体标志性词汇就是从某个作家的作品中抽取出来的其特别喜欢使用的,而别的作家一般不用的词汇。比如:小说《明朝那些事儿》中,作者特别喜欢使用“不靠谱”。据金明哲(2009)Mosteller和Wallace等人1964年在研究The Federalist Papers(《联邦党人文集》)时,从那些已经知道作者的文章中抽取了“upon、although、commonly”等词作为文体标志性词汇,用统计学上的贝叶斯定理和判别分析等方法,对那些作者存有争议的文章的作者进行了鉴别研究,得出了许多很有说服力的结论。

标志性词汇是作家的爱用语,它可以是和文章内容有关的词汇,也可以是和文章内容无关的词汇。如果一个作家特别喜欢使用而其他作家一般不怎么用,那么这种词汇有可能成为这个作家作品的标志。另外还有一种词汇,这些词汇不论哪个作家,也不论什么作品,都会大量使用。这些词汇和文章的内容无关,但是它们的使用习惯(如使用频率)却能够反映作家的写作风格。这种词汇的使用习惯,如果不是特别注意阅读和研究,仅凭读者的直感一般不容易发现其差别。但是其使用差别确实因人而异,如果对其进行精确测量,能够准确地计算出作家的写作风格的差别。诸如汉语中的“的、地、得”等语法功能词。这些词包括助词、介词、连词以及一些副词。

1962年瑞典文史学家Ellegard试图利用功能词的使用习惯推断Junius Letters的作者。1987年Burrows等用实验证明英语的“the、a、of、and”等高频度功能词可以用来进行作家的鉴定和文章体裁的区分。1996年Tweedie等又以高频度功能词作为神经网络的输入变量进行了The Federalist Papers作者的识别研究。

日语中使用频率最高的是助词和助动词。助词在文章中的使用率占到文章中品词比例的35%—40%,而且助词和助动词和文章的内容关系不大。据金明哲、村上征胜(2009),日本最早利用功能词进行作家文体研究的是韮泽。韮泽(1965)利用日语文言助词“にて、へ、して、ど、ばかり、しも、のみ、ころ、なむ、じ、ざる、つ、む、あるは、されど、しかれども、いと、いかに”的使用频率对日本江户时代的古典文学作品《由良物语》的作者问题进行了研究。由于助词在日语文章中具有很高的使用频率而且和文章内容无关,其使用习惯被认为是分析日语作家文体非常有效的特征。日本同志社大学教授金明哲利用助词的分布特征在对井上靖、中岛敦、三岛由纪夫的作品进行主成分分析时发现日语助词的分布特征比句长特征、动词分布特征都要有效。助词分布特征不仅对内容比较长的作品作者的推定十分有效外,对内容比较短的作品作者的分析也十分有效。金明哲(1997)利用助词的分布特征分析了6个人的日记,其中最短的一篇日记只有二三百字;2002年,又对平均只有1000字左右的大学生的作文进行了分析。两次都获得了95%—99%的作者判别精度。

中国也有学者利用助词等与故事情节无关的功能词进行文学作品作者的鉴定研究。上海华东师范大学的陈大康提出用以下47个文言虚字可以进行《红楼梦》作者的推定研究:

之 其 或 亦 方 于 即 皆 因 仍 故 尚 乃 呀  吗 咧啊 罢 么 呢 了 的 着 一 不 把 让 向 往  是 在 别 好可 便 就 但 越 再 更 比 很 偏 儿  罢咧 罢了

1987年上海复旦大学学者李贤平发表了名为《红楼梦成书新说》的论文,论文中采用了陈大康提出的47个虚字作为特征向量,用主成分分析、聚类分析等多种统计手段对《红楼梦》的成书过程进行了分析,提出了《红楼梦》有多名作者的结论。1988年陈大康撰文认为李贤平的分析缺乏客观标准,因此结论不具可靠性(陈大康1988)。可见,李贤平的研究并不是十分成功。

李贤平的结论受到了质疑,笔者认为可能有两方面的原因。一是47个虚字在测量古典文学作品作者文体风格上是否有效;二是李贤平对统计方法的使用和解释是否合理。从论文来看,李贤平的问题可能主要出在第二点上。尽管如此,47个虚字的有效性还需进行进一步验证。为了证明47个文言虚字在区分古典小说作者上的有效性问题,笔者利用作者争论不多的两部清代小说《儿女英雄传》(文康著)、《儒林外史》(吴敬梓著)为对象,以这47个虚词中的44个虚字[3]使用频率(千分数)为文体特征进行了聚类分析。下图为44个虚字在《儒林外史》和《儿女英雄传》中的频率分布。

图1.7《儒林外史》和《儿女英雄传》中虚字频率

图1.8 导入到SPSS中的虚字频率数据

我们利用上述44个文言虚字在《儿女英雄传》和《儒林外史》各回中的频率分布为特征对两部小说按章回为单位进行聚类分析,结果如下表。

表1.4《儿女英雄传》和《儒林外史》各回聚类分析结果

统计学中的聚类算法根据虚字的使用习惯,在两篇小说每一回后面自动添加类别标号,虚字使用习惯相同的类别标号是一样的。从上述结果我们看出,《儿女英雄传》的都归成了一类,其类别标号都是2;《儒林外史》的类别标号都是1。这说明《儒林外史》的作者对44个虚字的使用和《儿女英雄传》的作者存在使用习惯上的差别。由此我们可以清楚地看出,44个文言虚字的使用习惯可以作为古典文学作品作者写作特征的衡量指标。

1.3.5 词汇量的丰富程度

一个作家所掌握的词汇量是基本稳定的。而且词汇量是因人而异的,不同作家的词汇量不尽相同。这种特点反映在文章中就会表现为,词汇量丰富的作家其文章中不同词汇的数量和文章总词次之间的比例比较大,也就是我们常说的其文章表达丰富;相反如果一篇文章中,不同词汇的数量和文章总词次的比例很小,则我们觉得其词汇贫乏。由此可见,文章中词汇量的丰富程度也可以作为衡量作家写作特征的一个指标。文章中的词汇丰富程度,最简单而且直观的计算方法可以用以下公式求得:

TR=V(N)/N……………………………………1.1

其中:V(N)为文章中不同词汇的数量,也就是我们所说的词汇量。N表示文章中总的词次。

最早提出用词汇丰富程度衡量作家写作特征的是统计学家尤尔(Yule),他在1944年提出了用K值来衡量词汇丰富度。假设在词次为N的文章中,出现i次的单词数为V(i,N),那么尤尔认为K值就可以由以下公式给出:

为了能够精确统计作家词汇量的丰富程度,学者们还提出了许多测量词汇丰富程度的方法。根据日本学者金明哲、村上征胜调查,迄今为止学界提出的有关衡量学者词汇丰富程度的算法有十多种。金明哲、村上征胜在『文章の統計分析とは』中介绍了些算法。为了便于读者参考,笔者也在这里将其列举出来:

另据金明哲、村上征胜(2009)介绍,这些统计量大多和文章长度有关,只有K值和Z值基本不受文章长度影响,比较稳定,因此K值在文体测量中使用较多。

汉语由于自身的特点,词汇的丰富度调查比较复杂,但是可以用汉字的使用情况来替代词汇的使用情况。为了调查汉字的使用量和作家文体风格是否存在关系,笔者选取了我国现当代的5位作家的散文进行了调查。这5位作家分别是林语堂、沈从文、苏童、余秋雨、朱自清。每位作家的抽取的样本量(含标点)如下:

表1.5 五位作家作品的样本总体情况

统计时我们只对汉字进行计数,标点符号排除在计数之外。具体情况如下表。

表1.6 五位作家作品样本量

根据上表我们按照公式R=V(N)/N,计算每个作家的每一个样本的用字丰富程度,见下表:

表1.7 五位作家用字量

由上述结果我们可以看出,各位作家的平均用字丰富程度是各不相同的,其中林语堂和朱自清的差距最大。虽然我们能够从这么多样本中看出每一位作家的用字的情况,但是如果涉及判断哪一个样本属于哪位作家的问题时,汉字的TR值仍然稍显粗糙。从上表我们可以看到,有些样本虽然作家不同但是其汉字TR值却十分接近,这样的文章的归属问题我们很难依据汉字的TR值做出正确的判断。从总字数和不同字数的散点图也可以看出这一点。

图1.9 五位作家用字散点图

图中不同作家的作品都交织在一起,这些样本之间没有清晰的界限。如果这些样本的所属事先是未知的,那么凭这样的散点图我们没有办法区分出哪些样本是哪一个作家的。由此可见,利用汉字TR值进行文体的计量研究还有很长的路要走。这里要解决的最主要的课题就是,样本容量达到什么程度时,TR值才能够趋于稳定。只有TR趋于稳定才能够将其运用到文体测量的实践中。然而当所需样本容量过大时又会带来一个新的问题,那就是TR值虽然趋于稳定,但是小样本的测量却无法进行。

1.3.6 N-GRAM的分布情况

所谓N-GRAM是指语言中相邻的N个特定语言单位所组成的字符串。这些语言单位可以是音素、字、词等。N-Gram是计算机语言处理中最常用、最基本的语言概率模型。其基本思想是语言中某一现象的发生只和其前面N-1个现象有关。由于我们可以从大规模语料库中统计N-GRAM的频率,根据贝叶斯定理就可以对某一语言现象发生的概率进行预测,因此N-GRAM在自然语言处理的分词、语音识别等技术中得到了广泛的应用。

理论上,N-GRAM的N越大,对未知语言现象的预测越精确。但是,由于N每增加1,N-GRAM的数量将会以指数倍增长,考虑到计算和统计的规模,通常使用最多的是1-GRAM(UNIGRAM)、2-GRAM(BIGRAM)、3-GRAM(TRIGRAM)。下面以鲁迅先生的名言为例,具体说明N-GRAM的含义。

希望本是无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便成了路。

我们以字为单位进行N-GRAM抽取时,这句话的1-GRAM、2-GRAM、3-GRAM分别如下:

1-GRAM:

希 望 本 是 无 所 谓 有,无 所 谓 无 的。这正 如  地 上 的 路;其 实 地 上 本 没 有路,走的 人 多  了,也 便 成 了 路。

2-GRAM:

希望 望本 本是 是无 无所 所谓 谓有 有,无 无所 所谓 谓无 无的 的。这 这正 正如 如地 地上 上的 的路  路;其 其实 实地 地上 上本 本没 没有 有路 路,走 走的 的人 人多 多了 了,也 也便 便成 成了 了路 路。

3-GRAM:

希望本 望本是 本是无 是无所 无所谓 所谓有 谓有,有,无,无所 无所谓 所谓无 谓无的 无的。的。这。这正 这正如  正如地 如地上 地上的 上的路 的路;路;其;其实 其实地  实地上 地上本 上本没 本没有 没有路 有路,路,走,走的 走的人的人多 人多了 多了,了,也,也便 也便成 便成了  成了路了路。

由此例可以看出,以单字为单位进行N-GRAM抽取时,1-gram实际上就是单字,2-GRAM为相邻的两个汉字的组合,3-GRAM就是相邻3个汉字的组合。

由于N-GRAM是相邻的特定的语言单位的组合,这种组合虽然具有概率意义,但是一般不具有语言学意义,因此其使用的情况也可能反映作家的文体特征。据日本学者金明哲、村上征胜(2009)介绍,最早使用N-GRAM分布特征作为文体特征进行作者身份研究的是Fucks。20世纪90年代Kjell、Hoorn分别用2-GRAM和3-GRAM尝试文献作者的鉴定。金明哲利用日语助词的N-gram进行文献作者的鉴定时收到了很好的效果。另外,日本学者山田崇仁(2004)利用N-GRAM对我国先秦时期诸子百家留下的历史文献的成书年代进行了探索。石井公成(2002)、师茂树(2002)等学者用同样的方法对佛教经典的真伪进行了研究。

为了检验N-GRAM在汉语文章作者鉴别上的有效性问题,笔者分别利用1-GRAM和2-GRAM对作家池莉、韩少功的100万字的作品进行了聚类分析。在进行N-GRAM特征抽取时,我们以在参加聚类的19部作品中均出现的1-GRAM和2-GRAM作为文本的特征向量。其结果如下表。

表1.8 池莉、韩少功作品样本聚类情况

表中准确率是指聚类结果中,被分为某一类的作品总数和分类正确的作品数的比例。比如,2-GRAM聚类栏中被标注1的类别中共有10个作品,但是其中池莉的作品只有9个,有一个不是池莉的,因此类别1的正确率为9/10=90%;查全率是指参加聚类分析的作家作品总数和被正确分类的作品数的比例。比如,2-GRAM栏中,参加聚类分析的池莉的作品数为9,而被分到类别1中的池莉作品数为9,所以池莉作品的查全率为9/9=100%;而韩少功作品的查全率为9/10=90%。

从这两个作家作品的聚类结果看,以参加聚类分析的文本中均出现的1-GRAM和2-GRAM作为特征向量进行作家的聚类分析时,其准确率和查全率均比较高,而2-GRAM的性能更好。

1.3.7 汉语标点符号的使用规律和作者的文体风格

英语和日语在句子形态上是有非常明显的不同特征的。比如,日语中表示情态的一些成分出现后就标志着一个句子的结束。通常“だろう、でしょう、か、ね”等助词、助动词以及用言的终止形式出现后,往往意味着一个句子结束了,这时就应该点句号。由此可见,日语中句号的使用是有一定规律可循的,也就是说遵循着一定的语法规则。但是日语的句子有些时候很长,句子结束前在句子中间也可以用顿号进行句子中间的停顿,这种停顿既有一定的规律性,又与作家的习惯有关。表现其规律性的一面是日语的顿号总是点在某一个助词的后面,而究竟点在那个助词后面是因人而异的,没有规律可循。有些作家喜欢在某一个特定的助词后面点顿号,而另外一个作家则喜欢在另一个助词后面进行句中停顿。金明哲认为这种没有规律、因作家而异的句中顿号的标点方法后面可能隐藏着作家的写作特征。金明哲(1994)从顿号与其前面的助词的组合、顿号与其前面的单词的词性的组合,以及顿号之间的间隔文节的数量三个角度对日本作家井上靖、三岛由纪夫、中岛敦的21部作品进行了统计分析。结果发现,顿号与其前面助词的组合在不同作家作品间差异很大,而这些特征在同一作家作品群内则差别很小。三种特征中顿号和助词的组合最能够反映作家的文体特征。而顿号的文节间隔数分布不能够有效区分不同作家的作品。顿号和词性的组合介于两者之间。日语助词和顿号的组合分布能够有效反映作家风格特征的特性在使用主成分分析法进行分析时得到了进一步证实。

汉语和英语、日语不一样,其最突出的一个特点就是缺乏形态上的特征,因此汉语的句子从形式上很难把握和界定。汉语文章中的句子,其标志不一定就是“。”,因此,用以“。”为标志的句子长度的分布衡量汉语作家的文体特征,不一定能够收到很好的效果。这一点在“句子长度”一节中得到了证明。但是汉语句子的断句确实是因人而异的,甚至可以认为是和作家的呼吸有关的。有的人喜欢使用长的句子,而有的人则喜欢使用短的句子。这里所说的句子是广义的,断句包括在句子中间使用除“。”以外的标点符号进行的停顿。但是,汉语又和日语不一样,汉语这种句中停顿发生在某些特定的虚词后面的情况不多,绝大多数情况是在实词的后面。实际上,我们通常使用两个标点符号之间的非标点字符的数量作为汉语文体特征的一个重要指标。我们称之为标点符号间隔距离。而这个指标对于区分现代汉语的文体特征非常有效。在本书后面的内容中我们将利用多种统计学的方法进行文体分析时所使用的一个重要指标就是这个标点符号间隔距离。

正如前文所述,计量文体学研究领域所使用的数学方法和理论是数学领域的课题,不是人文研究领域学者所擅长的。然而并不是说人文学者在这一领域毫无施展的余地。传统文体学的研究方法和研究成果,对计量文体学文体特征的分析和提取研究所发挥的作用是不可估量的。通常计量文体学研究所使用的数学方法和理论要获得突破和进展需要一定的周期。当计量文体学中所使用的数学方法和理论处于一个稳定期时,即在所能够利用的数学理论和方法不变的情况下,如何能够使文体的计量分析更加精确和科学,则取决于用于计量分析的文体特征的选择是否恰当,取决于这些文体特征是否能够真正反映作品的文体风格。前文介绍的几种常用文体特征指标,虽然在应用过程中有显著的效果,但是,也存在一些不足。另外,汉语又有其特殊性,特别是汉语古典文学作品的文体特征如何把握,我们在这一方面还有很长的路要走。因此,计量文体学也是人文学者大有作为的研究领域。