本文通過搜索結果歸納分析+切詞通用算法分析的方式對百度預處理階段的查詢處理和中文分詞兩項技術進行了闡述、總結,如果你對數據結構、算法有一定了解的話,理解起來會相對容易些;個人感覺,得出正向最大匹配算法不夠準確,無論是專用詞典還是普通詞典里的詞,都是有不同權重的,這根搜索頻率應該有一定關系,基于這點,在出現多個專用詞典里的詞時,是需要采用雙向最大匹配算法來檢測到底哪一個專有詞匯應該先被切出來,當然,這是個人猜想,有待考究。
理解分詞技術對SEO工作具有極大意義,可以從科學的角度來分析關鍵詞,并構想關鍵詞部署策略;如果正向最大匹配算法的結論是正確的,那基本上可以斷定,切詞后的分詞的權重是按照正向排序的
我還想搞明白的是專用詞典和普通詞典,哪一個權重會更高?
以下為轉載的原文:
查詢處理以及分詞技術
隨著搜索經濟的崛起,人們開始越加關注全球各大搜索引擎的性能、技術和日流量。作為企業,會根據搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網民,會根據搜索引擎的性能和技術來選擇自己喜歡的引擎查找資料;作為技術人員,會把有代表性的搜索引擎作為研究對象。搜索引擎經濟的崛起,又一次向人們證明了網絡所蘊藏的巨大商機。重點線優化認為網絡離開了搜索將只剩下空洞雜亂的數據,以及大量等待去費力挖掘的金礦。但是,如何設計一個高效的搜索引擎?我們可以以百度所采取的技術手段來探討如何設計一個實用的搜索引擎。搜索引擎涉及到許多技術點,比如查詢處理,排序算法,頁面抓取算法,CACHE機制,ANTI-SPAM等等。這些技術細節,作為商業公司的搜索引擎服務提供商比如百度,GOOGLE等是不會公之于眾的。我們可以將現有的搜索引擎看作一個黑盒,通過向黑盒提交輸入,判斷黑盒返回的輸出大致判斷黑盒里面不為人知的技術細節。
查詢處理與分詞是一個中文搜索引擎必不可少的工作,而百度作為一個典型的中文搜索引擎一直強調其“中文處理”方面具有其它搜索引擎所不具有的關鍵技術和優勢。那么我們就來看看百度到底采用了哪些所謂的核心技術。
我們分兩個部分來講述:查詢處理/中文分詞。
一、查詢處理
用戶向搜索引擎提交查詢,搜索引擎一般在接受到用戶查詢后要做一些處理,然后在索引數據庫里面提取相關的信息。那么百度在接受到用戶查詢后做了些什么工作呢?
1、假設用戶提交了不只一個查詢串,比如“信息檢索 理論 工具”。那么搜索引擎首先做的是根據分隔符比如空格,標點符號,將查詢串分割成若干子查詢串,比如上面的查詢就會被解析為:三個子字符串;這個道理簡單,我們接著往下看。
2、假設提交的查詢有重復的內容,搜索引擎怎么處理呢?比如查詢“理論工具理論”,百度是將重復的字符串當作只出現過一次,也就是處理成等價的“理論工具”,重點線優化認為GOOGLE顯然是沒有進行歸并,而是將重復查詢子串的權重增大進行處理。那么是如何得出這個結論的呢?我們可以將“理論工具”提交給百度,返回341,000篇文檔,大致看看第一頁的返回內容。
OK。繼續,我們提交查詢“理論工具理論”,在看看返回結果,仍然是那么多返回文檔,當然這個不能說明太多問題,那看看第一頁返回結果的排序,看出來了嗎?順序完全沒有變化,而 GOOGLE 則排序有些變動,這說明百度是將重復的查詢歸并成一個處理的,而且字符串之間的先后出現順序基本不予考慮(GOOGLE是考慮了這個順序關系的)。
3、假設提交的中文查詢包含英文單詞,搜索引擎是怎么處理的?比如查詢”電影BT下載”,百度的方法是將中文字符串中的英文當作一個整體保留,并以此為斷點將中文切分開,這樣上述的查詢就切為,不論中間的英文是否一個字典里能查到的單詞也好,還是隨機的字符也好,都會當作一個整體來對待。至于為什么,你用查詢 “電影dfdfdf下載”看看結果就知道了。當然如果查詢中包含數字,也是如此辦理。 中點線網絡,提供百度優化,優化網站,關鍵詞優化等業務。