作业帮 > 综合 > 作业

百度中文分词如何分词

来源:学生作业帮 编辑:作业帮 分类:综合作业 时间:2024/04/29 04:57:11
百度中文分词如何分词
而百度中文分词就是把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容.在百度中文分词中,百度强调的是:一、 字符串匹配的分词方法.我们需要有一定的字符串做基础,就是一段词用字符分开,比如标点符号,空格等.才能够进行分词匹配,我们把这些字符串叫做机械词典.机械词典的个数不定.由每个搜索引擎自己确定.每个机械词典之间还会有优先级.字符串匹配的分词方法最常用的有几种:1、正向最大匹配法(由左到右的方向)2、逆向最大匹配法(由右到左的方向)3、最少切分(使每一句中切出的词数最小)百度中文分词基于字符串匹配举例给大家说明一下:“我想去澳大利亚旅游”正向最大匹配:我想去,澳大利亚旅游逆向最大匹配:我想,想去,澳大利亚,旅游.最少切分:我把上面哪句话分成的词要是最少的“我想去,澳大利亚旅游”这就是最短路径分词法,分出来就只有2个词了.另外,不同的搜索的词典不同,分出来的词也不同.二、理解的分词方法.这种分词方法不需要机械词典.这种其实就是一种机器语音判断的分词方法.很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟.处在测试阶段.三、统计的分词方法.这个顾名思义,就是根据词组的统计,发现那些相邻的字出现的频率高,那么这个词就很重要.可以作为用户提供字符串中的分隔符.比如,“我的,你的,许多的,这里,这一,那里”.等等,这些词出现的比较多,就从这些词里面分开来.四、对于百度中文分词的理基于统计的分词方法得到的词或者句子的权重要高于基于字符串匹配得到的.就是全字匹配得到的词的权重会高于分开的词的权重.根据自己的观察现在百度大部分都是使用的是正向匹配.百度分词对于一句话分词之后,还会去掉句子中的没有意义的词语.