一区二区三区av无码观看_亚洲av极品无码专区在线观看_亚洲一区二区三区乱码AⅤ_好深好爽使劲我还要_国产成人a高清视频

首頁

公司簡介

網站建設

虛擬主機

域名注冊

客戶案例

網站維護

最新動態

網站模版

聯系我們

我們專注:聊城做網站，聊城建網站,聊城網站建設，網站制作，虛擬主機，域名注冊，網站推廣等。聯系電話:15066359825

點擊這里給我發消息

最新公告

行業資訊

2022年春節放假通知

2021年春節放假安排

聊城網站建設共贏網絡2020年勞動節放假安排

2020年春節放假通知

醉美聊城！紀念聊城2020年第一場雪

百度愛采購再發力，聊城百度愛采購優勢有哪些

聊城網站建設公司為您講解：SSL證書類型之EV型S

苦逼職業！程序員就連等個電梯都在考慮這事

快手成為首家發央視春晚紅包的短視頻平臺

竟然可以追溯到40年前！MySQL的歷史與現狀

百度智能小程序月活用戶突破3億，小程序數量實現了翻

5G越來越近！網站的移動友好越來越重要

當前位置:首頁 --> 問題 --> 常見問題

百度優化分詞排名

發布時間：2011/2/12 12:11:56

本文通過搜索結果歸納分析+切詞通用算法分析的方式對百度預處理階段的查詢處理和中文分詞兩項技術進行了闡述、總結，如果你對數據結構、算法有一定了解的話，理解起來會相對容易些;個人感覺，得出正向最大匹配算法不夠準確，無論是專用詞典還是普通詞典里的詞，都是有不同權重的，這根搜索頻率應該有一定關系，基于這點，在出現多個專用詞典里的詞時，是需要采用雙向最大匹配算法來檢測到底哪一個專有詞匯應該先被切出來，當然，這是個人猜想，有待考究。

　　理解分詞技術對SEO工作具有極大意義，可以從科學的角度來分析關鍵詞，并構想關鍵詞部署策略;如果正向最大匹配算法的結論是正確的，那基本上可以斷定，切詞后的分詞的權重是按照正向排序的

　　我還想搞明白的是專用詞典和普通詞典，哪一個權重會更高?

　　以下為轉載的原文：

　　查詢處理以及分詞技術

　　隨著搜索經濟的崛起，人們開始越加關注全球各大搜索引擎的性能、技術和日流量。作為企業，會根據搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網民，會根據搜索引擎的性能和技術來選擇自己喜歡的引擎查找資料;作為技術人員，會把有代表性的搜索引擎作為研究對象。搜索引擎經濟的崛起，又一次向人們證明了網絡所蘊藏的巨大商機。重點線優化認為網絡離開了搜索將只剩下空洞雜亂的數據，以及大量等待去費力挖掘的金礦。但是，如何設計一個高效的搜索引擎?我們可以以百度所采取的技術手段來探討如何設計一個實用的搜索引擎。搜索引擎涉及到許多技術點，比如查詢處理，排序算法，頁面抓取算法，CACHE機制，ANTI-SPAM等等。這些技術細節，作為商業公司的搜索引擎服務提供商比如百度，GOOGLE等是不會公之于眾的。我們可以將現有的搜索引擎看作一個黑盒，通過向黑盒提交輸入，判斷黑盒返回的輸出大致判斷黑盒里面不為人知的技術細節。

　　查詢處理與分詞是一個中文搜索引擎必不可少的工作，而百度作為一個典型的中文搜索引擎一直強調其“中文處理”方面具有其它搜索引擎所不具有的關鍵技術和優勢。那么我們就來看看百度到底采用了哪些所謂的核心技術。

　　我們分兩個部分來講述：查詢處理/中文分詞。

　　一、查詢處理

　　用戶向搜索引擎提交查詢，搜索引擎一般在接受到用戶查詢后要做一些處理，然后在索引數據庫里面提取相關的信息。那么百度在接受到用戶查詢后做了些什么工作呢?

　　1、假設用戶提交了不只一個查詢串，比如“信息檢索理論工具”。那么搜索引擎首先做的是根據分隔符比如空格，標點符號，將查詢串分割成若干子查詢串，比如上面的查詢就會被解析為：三個子字符串;這個道理簡單，我們接著往下看。

　　2、假設提交的查詢有重復的內容，搜索引擎怎么處理呢?比如查詢“理論工具理論”，百度是將重復的字符串當作只出現過一次，也就是處理成等價的“理論工具”，重點線優化認為GOOGLE顯然是沒有進行歸并，而是將重復查詢子串的權重增大進行處理。那么是如何得出這個結論的呢?我們可以將“理論工具”提交給百度，返回341,000篇文檔，大致看看第一頁的返回內容。

　　OK。繼續，我們提交查詢“理論工具理論”，在看看返回結果，仍然是那么多返回文檔，當然這個不能說明太多問題，那看看第一頁返回結果的排序，看出來了嗎?順序完全沒有變化，而 GOOGLE 則排序有些變動，這說明百度是將重復的查詢歸并成一個處理的，而且字符串之間的先后出現順序基本不予考慮(GOOGLE是考慮了這個順序關系的)。

　　3、假設提交的中文查詢包含英文單詞，搜索引擎是怎么處理的?比如查詢”電影BT下載”，百度的方法是將中文字符串中的英文當作一個整體保留，并以此為斷點將中文切分開，這樣上述的查詢就切為，不論中間的英文是否一個字典里能查到的單詞也好，還是隨機的字符也好，都會當作一個整體來對待。至于為什么，你用查詢 “電影dfdfdf下載”看看結果就知道了。當然如果查詢中包含數字，也是如此辦理。中點線網絡，提供百度優化，優化網站，關鍵詞優化等業務。

快速通道

客服中心	付款方式	網站地圖
虛擬主機	域名注冊	聯系我們

銷售部
技術部
售后服務
公司電話(傳真) 15066359825

常見問題

* 什么是SSL證書、https有哪些好
* 聊城網站建設公司為您介紹MySQL特
* 清理winsxs文件夾釋放C盤空間、
* C語言本身是用什么語言寫的？聊城小程
* 什么是JSON？
* HTML5+顛覆傳統app開發
* php通過pecl安裝swoole擴
* HTML5應用程序緩存的三個優勢
* PHP中的三種數組類型
* 讀不懂英文文檔，如何寫出好的代碼？
* 容易被人忽視的網絡安全
* 其他(get\post除外)HTTP

聊城建網站首頁公司簡介網站建設虛擬主機域名注冊網站推廣公司資訊成功案例服務中心聯系我們網站地圖

版權所有 2008-2009 共贏網絡 qiao024.com 公司地址:聊城市利民東路郵編:252000
銷售熱線:15066359825 技術支持:QQ:297369059 銷售在線服務: QQ:914082597

網站建設公司專業從事：聊城做網站，聊城建網站，聊城網站建設，聊城網站制作，虛擬主機，域名注冊，網站推廣等服務
聊城共贏網絡

分公司：臨清網站建設、陽谷網站建設、高唐網站建設、茌平網站建設、東阿網站建設、冠縣網站建設、莘縣網站建設