红楼梦的文本分析探索人物之间的关系文档格式.doc
- 文档编号:4640218
- 上传时间:2023-05-03
- 格式:DOC
- 页数:16
- 大小:572.50KB
红楼梦的文本分析探索人物之间的关系文档格式.doc
《红楼梦的文本分析探索人物之间的关系文档格式.doc》由会员分享,可在线阅读,更多相关《红楼梦的文本分析探索人物之间的关系文档格式.doc(16页珍藏版)》请在冰点文库上搜索。
人物与人物关系疏密度;
五、模型建立与求解
1.模型的建立
记从《红楼梦》中选取的某段文字去除停用词后记为样本,所选的三段文字去除停用词后分别记为,对于样本,它的总字数为,三个样本的总字数分别记为,从样本中提取的某人物记为,提取的n个人物分别记为,人物某次出现的相对位置记为,m次出现的相对位置分别记为,的定义为
上式中乘以100的原因是为避免“人物第m次出现的位置值/人物所在样本去除停用词后的总字数”的数值过小,在使用Matlab处理时会出现较大误差。
人物()m次出现的相对位置组成的一维向量用表示。
定义样本中人物与人物关系疏密度如下:
;
其中,如果,则令;
的定义:
将从样本中提取的所有人物出现的相对位置值从小到大排列,相邻的相对位置值之差(绝对值)的平均值作为。
引入r的意义:
由于可能出现特别小的情况,当特别小时,会特别大,为了避免过大而引起出现较大误差,故引入r,当时,令;
r取所有人物出现的相对位置值从小到大排列后,相邻的相对位置值之差(绝对值)的平均值作为,可使上述误差大大降低,而且所得结果与事实符合的较好。
模型的意义:
当人物出现的各个位置附近人物出现的次数较多且距离人物出现的位置较近时,可认为人物与人物的关系较为密切;
反之,可认为人物与人物的关系较为疏远。
我们所定义的关系疏密度是一个能够综合反映人物出现的各个位置附近人物出现次数的多少和距离人物出现位置远近的量。
观察,我们可以看到当有多个出现位置在出现位置附近时时,由累加效果可看出会相对较大,当出现的某个位置与出现的某个位置距离较近时,会比较大,同样会相对较大,因此能够反映人物与人物的关系疏密度。
2.样本的选取
我们选取《红楼梦》前四十回里的第二十回去除停用词后作为第一个样本,第四十一回到第八十回中的第六十回去除停用词后作为第二个样本,第八十一回到第一百二十回中的第一百回去除停用词后作为第三个样本。
3.数据的获取
获取方法
1)提取样本中的人物,我们使用中国科学院计算技术研究所的ICTCLAS系统来完成,并经过一定的人工修正。
2)通过程序1(使用Matlab所编),我们可以统计每个人物在样本中出现的频数m和获得人物()m次出现的相对位置。
3)按上述1、2步骤分别对进行处理。
获取结果
1)表一为从三个样本中提取的人物、人物出现的频数和频率(某人出现的频数比上所有人出现的频数之和)、样本的总字数。
2)表二为从三个样本中获取的人物出现的相对位置向量。
4.数据的处理
1)对表一中三个样本中的人物和对应的频率画出散点分布图,并用曲线拟合,作图结果分别为图一、图二、图三。
2)通过使用excel软件利用表二中的相关数据计算得到三个样本中的r值,计算结果如下表:
三个样本的
数值
0.525
0.874
0.845
3)通过程序2和程序3利用表二中的相关数据分别计算三个样本中的。
计算所得结果记入表三。
4)利用上述步骤3所得的结果,画出主要人物与其他人物之间的关系疏密度的散点分布图,并用曲线拟合,作图结果分别为图四、图五、图六。
图一
上图中其他人物的序列如下表:
1
2
3
4
5
6
7
8
9
10
11
12
宝玉
黛玉
宝钗
贾环
袭人
麝月
莺儿
李嬷嬷
凤姐
晴雯
贾母
赵姨娘
55
24
17
15
14
图二
探春
蕊官
蝉儿
藕官
豆官
李纨
22
13
图三
薛蝌
宝蟾
王夫人
薛姨妈
薛蟠
19
图四
139
89
81.6
70.5
64.8
41.1
32.8
32.5
26.6
25.3
10.9
图五
44.8
29.5
23.3
19.4
16.8
9.5
7.1
5.8
5.1
3.4
3.3
图六
36
34.8
31.3
29.8
24.4
17.1
4.3
1.5
0.8
六、参数估计与模型检验
基于以上所作图的结果,我们可以得出结论:
1)所选《红楼梦》文段中的人物出现频率近似符合幂律分布,三个样本中排前三的主要人物如下表:
通过阅读所选文段与实际情况符合的较好。
2)三个样本中人物“宝玉”都是主要人物,与《红楼梦》以宝玉为主人公这一事实符合的较好。
3)由图四、五、六,可得《红楼梦》文本中的人物之间关系的疏密程度近似符合幂律分布,且基于样本一,人物“宝玉”与“黛玉”的关系较为密切。
与所选文段实施情况一致。
4)基于样本二,人物“宝玉”与“赵姨娘”的关系较为密切,根据该章回的事实,该结果基本属实;
基于样本三,人物“宝玉”与“宝钗”的关系较为密切,根据第一百回的事实情况,该结果基本正确。
根据所取的样本文本中的事实情况,我们所估计的得到的的人物关系与样本中所体现的人物关系基本符合。
七、模型异同点分析
根据所取的样本文本及所绘制的图,可以得出相同点和异同点如下:
相同点:
1)人物“宝玉”出现的频数最多,“宝玉”为样本中的最主要的人物;
2)在所取的样本中人物“宝玉”与人物“黛玉”,“宝钗”,“袭人”的关系较与其他人物相比较更为密切。
不同点:
1)在不同的所取的样本中,主要人物不完全相同,排前三的主要人物如下表:
2)在不同的所取的样本中,最主要人物“宝玉”关系最为密切的人物也不相同,在三个样本中和“宝玉”关系排前三的如下表:
在不同的样本中其他人物与人物“宝玉”的关系程度也不同,在样本W1中“黛玉”的比重为139,而在样本W3中,“黛玉”的比重仅为29.8,可见相同的人物在不同的文本中与“宝玉”的关系也不相同。
八、模型评价
模型优点:
1)对《红楼梦》的人物关系的疏密程度作出了数学上的统计分析,对人物之间的关系非常清晰明白。
2)采用绝对值的反比例函数的方法近似刻画了人物之间的关系的疏密程度,对关系程度的刻画符合幂律分布,比较符合事实。
模型缺点:
1)没有特别好的统计方法去统计不同人物的不同称谓,例如人物“林黛玉”的称谓就有“黛玉”,“林妹妹”,“颦颦”,“颦儿”,“潇湘妃子”等好几种称谓,没有做到完全的人物统计;
2)绝对值的反比例函数取值是否合理,只能模糊估计,不能精确计算。
表一
人物
频数
频率
0.32
0.24
0.17
0.14
0.22
0.13
0.10
0.13
0.12
0.09
0.09
0.08
0.06
0.06
0.05
0.05
0.04
0.04
0.03
0.02
0.02
统计
170
100
115
总字数
4337
6194
4793
表二
位置分布向量
1937 59 165 201 272 276 331 382 407654
8859711007 1167 11921268 1312 1379 1398 1505 155716221674 1706 1724 1751 1837 1892 1965 2262 2312 235426222639 2806 3237 3255 3286 3324 3330 3362 3436 348735293568 3609 3647 3672 3693 3783 3915 4005 4127 4254
1023 63 99 128 556 8552465 3319 3340 339134803514 3545 3591 3653 3678 3726 3888 3940 4026 408141964232
31 89172 558 853 1938 1957 2129 2169 2244 228823332468 2618 3241 3263 3631
19301951 2078 2098 2132 2254 2327 2600 2635 2754 278729532987 3087 3211
139145 225 335 423 488 963 1070 1225 1316 132415171857 1870
13641392 1415 1532 1595 1709 1713 1741 1784 1843
19422042 2070 2120 2138 2162 2308 2797
214340 445 582 645 680 801
810860 2855 2958 2984 3103
9281340 1643 1685 1764 1798
12901295 2609 3292
27622814 2977
140184 317 597 640 694 717 730 785 819 127518102055 2167 3351 3357 4348 4362 4443 4446 4485 448745634687
10321185 1331 1642 1670 1685 1760 1970 2030 2073 209623302488 2639 2663 2716 2824 2928 3118 3253 4492 5552
27942802 2857 2948 3133 3278 3302 3320 3402 3449 348036934521
19109 2067 2321 2345 2445 2682 4583 5047
486552 687 796 2536 2728
35073646 3699 3871 3981 4167
159203 422 437 462
16592534 2730 3344
25562628 2745
692800 3140
24412668 2786
4142058
16311660 1676 1690 1737 1748 1798 1810 1858 1890 219422662319 2379 2445 2479 2591 2625 2663
123428 3711 3716 3802 3915 3928 3975 4047 4121 414943084457 4533 4698
3941077 1422 1535 2716 3353 3954 3985 4110 4137 429044664577 4616
17441901 1927 2046 2079 2089 2150 2197 2293 2550 2611
2322719 2739 2784 2901 3316 3884 3900 3998 4685 4734
34333449 4107 4139 4282 4468 4496 4584 4601 4705 4719
27353462 3567 3649 3685 3769 3870 4116 4607 4739
2572725 2773 2822 2952 3346 3404 3902 4000
38273942 4027 4052 4061 4083
304383 891 1361 1516
185309
47594780
表三
345.0
139.0
108.7
89.0
37.0
52.5
64.8
16.1
39.6
57.7
81.6
19.3
19.9
9.9
43.7
70.5
6.3
10.9
10.8
21.0
45.7
32.8
6.4
26.9
33.1
6.8
7.8
31.0
32.5
10.7
10.1
2.4
15.9
3.0
1.5
19.7
25.3
10.3
9.3
14.9
5.8
2.9
3.6
8.0
16.5
41.1
4.4
6.1
12.5
23.0
2.5
2.7
26.6
6.5
6.6
6.7
8.4
5.1
2.0
1.1
1.9
3.3
7.2
3.4
3.5
11.5
3.8
0.4
6.0
0.6
121.3
44.8
96.9
29.5
36.5
61.5
19.4
27.0
8.9
20.3
23.3
14.0
5.6
13.5
9.5
14.4
16.3
16.8
4.1
1.4
4.5
7.7
0.5
17.8
7.1
17.4
11.8
4.9
5.9
14.8
7.4
4.6
1.0
4.7
6.9
8.6
9.0
4.2
2.1
2.2
3.9
14.6
7.9
5.4
2.3
0.3
119.5
59.4
14.2
36.0
37.7
51.2
4.3
47.1
12.9
24.4
19.0
30.9
5.0
34.8
28.5
40.9
7.6
31.3
17.5
27.7
11.4
17.1
14.7
22.9
8.8
12.6
29.8
18.6
1.7
12.7
12.2
9.7
26.7
2.8
0.8
0.9
1.3
1.8
0.2
3.1
0.7
4.0
3.7
0.1
0.0
九、附录
程序1
clc;
closeall;
fid=fopen('
C:
\Users\kai\Desktop\1.txt'
'
r'
);
iffid==-1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 红楼梦 文本 分析 探索 人物 之间 关系
![提示](https://static.bingdoc.com/images/bang_tan.gif)