推测百度分词根本步调
近来战伴侣正在会商百度分词,看了许多网上闭于百度分词的一些真例,我们去对百度的分词步调停止一些推测,我们不成能实正的理解只能道是推测:
1. 判定用户提交字符串,假如为多个字符串,则经由过程空格,标面标记,等停止切割。
2. 判定提交字符串中有没有字母大概数字,假如有把字母取数字看成自力团体,并把那个团体看成切割背,停止前后切割。
3. 判定切割后的词组有没有反复词,有看成一个计较。
4. 假如提交为一个字符串,判定字符串字数,年夜于4并即是4个字的停止切割,假如小于4个字没有停止任那边理。
5. 比较特别词库表停止提与,假如字符串中包罗特别词停止零丁提与。
6. 停止正背分词处置。
7. 停止反背分词处置。
8. 正背分词成果取反背分词成果停止比照,假如成果一样,间接输出。
9. 假如成果纷歧样,输出最短途径(词数起码的)停止输出。
10. 假如少度一样停止则输出票据起码的成果。
11. 假如票据起码成果一样,则输出正背分词成果。
针对百度索引提醒,纠错本理。
1.判读词组,1个字的词没有停止提醒,年夜于1个字开启提醒功用。
1.停止同音字提醒,假如词数过多,提与用户搜刮最多词组停止提醒。
除以上中,我们借需求留意一面,那便是如今分词中停止了语意相干分离:
举个例子我们经常正在搜刮某些词的时分会发明有些成果中其实不是完整婚配的词也停止了飘白。实在那种状况便是语意分离。我们能够了解为百度把相干词表停止了联系关系,大概痛快停止了表分离。形成了那种状况的呈现。
好比我们搜刮太本,我们会发明太本取太本市皆停止了飘白。
搜刮英文car,car取汽车皆停止了飘白。
我的小站6cs(2011时髦冬拆)欢送辅导。(转载请保存)
注:相干网站建立本领浏览请移步到建站教程频讲。
相关信息
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|