3 查看任务
点击导航栏【查看任务】,填入上个步骤生成的
任务ID,即可查看数据处理结果。
3.1 基础统计和数据分布
基础统计数据包括如下:
- 文献总数
- 来源数(比如期刊名称)
- 作者数, 作者数(去重后),篇均作者数
- 关键词数,关键词数(去重后),篇均关键词数
- 机构数,机构数(去重后),篇均机构数
- 年份数
数据分布包括文献来源、机构、作者、和年份。数据分布饼图里,将频次 < 1%的数据全部归类于"Others/其他",这样能够凸显高频。
3.2 频次列表
频次列表将所有字段按照频次高低降序排列,SATI网站仅展示 <= 高频字段显示个数的数据。频次列表包括高频作者、关键词、机构、文献来源、和发表年。
用户可以点击下载全部字段的频次列表。
3.3 时间序列
时间序列图根据用户设置的高频字段显示字数,按照数据包内文献全部发表年限,生成高频字段随发表年频次和频率变化趋势/曲线。用户可下载全部字段数据。
用户可以点击下载全部字段的时间序列数据。
3.4 知识图谱/共现矩阵
SATI 支持产生 UTF16-LE 编码,以 tab "\t" 为分隔符的 TSV 文件,方便分享和在多种操作系统的Excel中打开。SATI生成的共现矩阵包括:
- 频次共现矩阵 co-occurence.X.tsv, 详细参见论文。
- 二值共现矩阵 co-occurence.X.binary.tsv, 详细参见论文。
- Equivalence共现 相似矩阵 co-occurence.X.equivalence.tsv, 详细参见论文。
- 共现 相异矩阵 co-occurence.X.dissimilarity.tsv, 详细参见论文。
- 供Ucinet/NetDraw使用的.vna格式源文件
co-occurence.X.vna
- 供Gephi使用的.gexf格式源文件
co-occurence.X.gexf
用户可以点击下载各种矩阵源文件。
共现知识图谱 产生的基本思路和 论文 56页一致。
以关键词知识图谱为例,网络图的生成原理可以概括为:
- 节点大小:关键词词频的大小。
- A - B 连线:关键词 A 与 B 共现过,连线粗细由共现频次决定。
- 节点颜色:关键词自动聚类结果。同颜色的关键词词组分布在一起,因为彼此的共现关系(联系)更紧密,可认为自然形成了一个核心主题。
3.5 自动聚类
SATI 采用多种自动聚类算法,将所选高频字段基于共现矩阵聚类并生成树状图。
3.6 条形竞赛动图
SATI 根据所选题录高频字段,按照时间线,自动生成动态条形竞赛图。