電話1.jpg

通用banner

了解搜索引擎的分詞技術,更好的寫好網站SEO標題

了解搜索引擎的分詞技術,更好的寫好網站SEO標題

2019-06-20

今天主要以百度的中文分詞技術來講解。通過對搜索引擎分詞技術的了解,可以讓大家做SEO的時候更合理的去書寫SEO優化中的重點,三個標簽的確定。

分詞技術是中文搜索引擎特有的技術支持。中文信息和英文信息的差別在于;英文單詞之間用的是空格分隔的,這對中文就行不通了,搜索引擎必須將整個句子切割成小單元詞,如“我的兄弟姐妹”拆分出來的形態是我、的、兄弟、姐妹。分詞技術的效率直接影響到整個系統的效率。

分詞的方法基本上有兩種:基于字符串匹配的分詞方法和基于統計的分詞方法:

1、基于字符串匹配的分詞方法

按照匹配方向的不同,可分為正向匹配、逆向匹配和最少切詞??蓪⑦@三種方法混合起來使用,即正向匹配、逆向匹配、正向最小匹配、逆向最小匹配。

正向匹配:假設字典中最長的詞語數字為m,先根據漢語標點符號及特征詞把漢語切分為短語,然后去取短語的前m個字,在字庫里面查找是否存在這個詞語,如果存在,短語就去掉這個詞;如果不存在就去掉m這個字的最后一個字,接著檢查剩下的詞是否是單字,若是則輸出此字并將此字從短語中去掉,若不是則繼續判斷字庫中是否存在這個詞,如此反復循環,直到輸出一個詞,此后繼續取剩余短語的前m個字反復循環,這樣就可以將一個短語分成詞語的組合了。

以“我是一個好人”為例,假設字典中最長詞語字數為3,正向匹配順序為:

1、取出短語“我是一”,檢查“我是一”是否在字典中存在或是一個單字,處理方式是去掉最后面的“一”字

2、檢查短語“我是”是否在字典中存在或是一個單字,處理方式是去掉一個“是”字

3、檢查“我”字是否在字典中存在字典中存在或是一個單字,“我”是一個單字,將“我”輸出

4、繼續取出短語“是一個”,檢查“是一個”是否存在字典中存在或是一個單字,處理方式是去掉最后的“個”字

5、檢查短語“是一”是否存在字典中存在或是一個單字,處理方式是去掉“一”字

6、檢查“是”字是否存在字典中存在或是一個單字,“是”是一個單字,將“是”字輸出

7、取出短語“一個好”,檢查“一個好”是否在字典中存在或是一個單字,處理方式是去掉最后的”好“字

8、檢查短語“一個”,發現是字典中一個詞,直接輸出。

9、檢查短語“好人”,發現是字典中的一個詞,直接輸出

10、最后輸出結果為:我、是、一個、好人。

逆向匹配:以句子結尾處進行分詞的方法。逆向匹配技術的一個作用是用來消歧。如“富營銷線下聚會在下城子鎮舉行”按照正向匹配結果為:富/營銷/線/下/聚會/在/下城子鎮/舉行,很顯然這當中產生了歧義。下城子鎮是一個地名,沒有被正確地切分。采用逆向匹配技術可以修正這個錯誤。例如設定一個分詞節點大小為7,那么“在下城子鎮舉行”中很顯然“舉行”被分了出來,最后剩下“聚會在下城子鎮”,這樣一來歧義就消除了。

正向最小匹配/逆向最小匹配:一般很少使用到,實際使用中逆向匹配的確度 高于正向匹配度。

基于統計分詞方法:直接調用分詞詞典中的若干詞進行匹配,同時也使用統計技術來識別一些新的詞語,將所有的統計結果匹配起來發揮切詞的高效率。

分詞詞典是搜索引擎判斷詞語的依據,基本上收錄了漢語詞典當中所有的詞語。如我們搜索引擎中輸入“我要減肥了”,“減肥”兩字就會被判定為一個詞語,現在網絡上經常會出現一些新造的網絡流行語如:“神馬”、“犀利哥”等,這樣的詞也都會慢慢地被收錄。分詞詞典只有不斷更新才能滿足我們日常搜索判斷的需求。


標簽

最近瀏覽:

真正欧美av片_亚洲 国产 日韩 在线 一区_亚洲 中文 自拍 另类 小说
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>