您所在的位置: 四川大学生联盟 > 学习 > 搜索引擎 > 搜索引擎中文分词的方法说明
搜索引擎中文分词的方法说明
2013-08-07 12:17 来源:网络整理 点击:

时间:2012-03-12 13:02 来源:未知 新浪微博:@刑天营销

搜索引擎中文分词的方法说明

作者:Jackie

  分词是指将一段句子切分成一个个单独的词项,对于英文来讲,单词作为词项,由于英文的书写格式,词与词之间必须有空格,招生简章,这样搜索引擎很容易将一段句子处理成词项的集合;但是中文来讲,教学,词之间没有空格,搜索引擎不能够直接将句子处理成词项的集合,需要一个分词过程,刑天营销简单介绍搜索引擎中文分词的方法。

一、基于词典的分词方法

  也叫“机械分词法”,将分词的句子与词典中的词语进行匹配,如果匹配成功,则将匹配的部分作为一个词,招生,最后生成一个词语序列,根据分词的方向与优先长度不同可分为一下四种方法:

1、正向匹配法

  根绝句子的正序(由左至右)进行匹配,例如:发展中国家,切分为:发展/中国/家。

2、逆向匹配法

  根据句子的逆序(由右至左)进行匹配,例如:发展中国家,考生电子书,切分为:发展/中/国家。

3、最大匹配法

  根据词典中最长的词语的长度确切分,如果不是,则在使用次一级长度去切分,假设字典中最长的词语是4个,以“发展中国家”为例,首先截取前四个“发展中国”判断,如果与字典中的词匹配,那么就是词项,如果不匹配,寸芒txt全集下载,那就截取前三个词“发展中”来判断,以此类推直至切分出词项。

4、最小匹配法

  同最大匹配法刚好相反。

二、基于理解分词的方法

  为了解决分词中的歧义问题,搜索引擎完全模拟人理解句子的过程,对句子进行句法分析与语义分析,学习,这个方法需要大量的语言知识和信息,大学生,计算过程比较复杂,成功报名,对搜索引擎的基础硬件要求比较高。

三、基于统计分词的方法

  随着时代与互联网的发展,会产生很多新的词汇,例如一些人名、新科技名词、新事件名(比如XX门、XX帝等),这些词汇未被词典收录,这些词成为“未登录词”,这些词汇的切分就要依靠统计分词的方法,搜索引擎通过统计这些字在整个语料库中出现的频率,例如在语料库中发现“S”、“E”、“O”同时出现的次数非常高,那么搜索引擎就判定”SEO”是一个词汇。

原文链接: 版权所有,转载请以链接形式注明作者及原始出处。

上一篇:什么是百度停用词Stopword  
下一篇:seo中的长尾理论

[责任编辑:admin]

顶一下
(0)
0%
踩一下
(0)
0%

发表评论
请遵守互联网政策法规,严禁发布色情、暴力、反动言论。
评价:
表情:
用户名:密码: 验证码:点击我更换图片