文本内容识别与分析
文本分词:中文分词和英文分词
中文分词面临两个主要问题:歧义识别和非登录词识别。
- 歧义识别问题。 交叉型歧义:两个相邻词之间有重叠的部分 组合型歧义:某个词组其中的一部分也是一个完整的有意义的词。
- 未登录词识别问题。 没有加入分词词典而实际文本中存在的词汇。如专有名词:人名、地名、产品名、简称等;新出现的通用和专业用语:神马、给力等。
中文分词技术
基于字符串匹配的分词方法
- 建立词典
- 对于给定的待分词的汉字串S,按照一定的扫描规则(正向、逆向)取S的子串,最后按照一定的匹配规则将此子串与词典中某词条进行匹配。可分为正向匹配、逆向匹配;按照不同长度优先分配可分为最大匹配法和最小匹配法。
- 常见方法有最大匹配法、最小匹配法、最小切分分词法、双向匹配法等。
减字匹配法
实现简单,分词速度较快; 分词精度依赖于词长,词长过短,长词会被切错;词长过长,检查效率低。
基于统计的分词方法
计算文本中相邻出现的各个字的组合频率,计算它们互现信息,并以此判断它们组合成一个词的可信度。 该方法只需要对语料中的字的组合频度进行统计,不需要基于切分词典,因而称为无词典分词法或统计取词方法。 常用方法:N-gram、隐马尔科夫模型和最大熵模型等。 识别精度低。如“我的”、“之一”等。
基于理解的分词方法
在分词中考虑句法和语义信息,利用句法信息和语义信息来消除歧义。即通过计算机模拟人对句子的理解实现中文分词过程。 计算机无法将各种语言组织成计算机能够处理的形式。因此该法未达到广泛应用。
三种分词方法的比较
分词方法 | 优点 | 缺点 |
---|---|---|
基于字符串匹配 | 1.实现简答 2. 分词速度快 | 1. 分词精度与词库相关 2.不能发现交叉型歧义 3.不能实现未登录词 |
基于统计 | 1.不需要基于切分词典 2.消除歧义 | 1.经常抽出一些共现频度高,但不是词的常用词组 2.不能识别未登录词 3. 识别精度差,时空开销大 |
基于知识理解 | 1. 能识别未登录词 2.消除歧义 | 1. 知识词库复杂 2. 分词精度与知识库相关 |
去停用词
- 在文本分词的基础上,去掉那些常见的、价值不大的词,即去停用词。
- 常见的停用词包括冠词、介词、连词。
- 查表法和基于文档频率的方法。 查表法是预先建立好一个停用词表,然后通过查询停用词表的方式过滤掉与文本内容本身没有多大关系的词条。 基于文档频率的方法是通过统计每个词的文档频率,判断其是否超过总文档的某个百分比。若超过所设定的阈值,则当作停用词去掉。
文本表示
将文本内容转换为计算机内部的表示结构。 特征项:文本表示模型中所用的基本语言单位。如字、词或词组。 特征权重:该特征项对于文本内容的重要程序,权限越高的特征项越能代表该文本的内容。
文本表示模型
-
基于集合论的模型。 布尔模型: 将文本表示为特征空间的一个向量,向量中每个分量是二值变量。 查询特征项之间通过逻辑运算符AND、OR、NOT相连,其与文本之间的匹配方式遵循布尔表达式的运算规则。 模型简单。缺点:基于严格的特征项匹配,不能提供近似或部分匹配;不能反映特征项对文本的重要程度,排序能力差;较难表示一些复杂的用户需求。
-
扩展布尔模型
-
基于模糊集的模型
-
基于代数论的模型 向量空间模型 由Cornell大学的G.Salton等70年代提出的 VSM两个基本假设:文本所属类别仅与某些特征项在该文本中出现的词频有关,而特征项出现的位置和顺序无关;特征项与特征项之间是互异且相互独立的。 主要思想:不考虑特征项在文本中出现的先后顺序,将文本表示为互异且相互独立的特征项的组合向量,以不同特征项构造一个高维空间,文本则表示为该空间中的一个向量。
-
基于概率的模型 利用特征项之间、特征项与文本之间的概率关系进行信息检索。经典概率模型、回归模型、推理网络模型等。
-
经典概率模型 根据用户查询q,将文本分为查询q相关的集合R,与查询集合不相关的集合S 假设:同一类文本中,各检索特征项具有相同或相近的分布;而不同类文本中,检索特征项具有不同的分布。 通过计算文本中所有检索特征项的分布,就可以判定该文本与检索的相关度。相似度函数定义为:
分子表示文本d与查询q相关的概率;分母表示文本d与查询q不相关的概率。
特征提取
- 文本的特征提取是指从文本信息中抽取能够代表该类文本或文本信息内容的过程。
- 特征提取的目的: 降低文本空间的维度和稀疏度,提高内容识别与分析性能; 所选择数量较少的特征项更直接的反映文本主题,利用对文本的理解;在一定程序上去掉有干扰的噪声特征项,增强文本之间相似度的准确性。
- 特征提取方法: 人工方法 计算机自动提取:首先造一评价函数,对文本特征集中每个特征进行独立的评估,这样每个特征都获得一个评估分;选择预定数目的最佳特征作为结果的特征子集。 常见评估函数:文档频率DF;互信息MI、信息增益IG、交叉熵等。