先简要的写写,回头再改:)
搜索引擎抓取内容并建立索引库过程:
抓取 每个网站每日抓取量固定(Rank,IP,域名时间,……)
页面过滤 去除大部分内容重复页面 (90%内容重复)
HTML过滤 去除多个页面里面重复的代码
去除高频词和禁用词 留下能够表达该文档内容的词
结合每个词所在的位置(网站、网页)设置其权重 (可能人工干预)
分词并建立索引库
用户搜索过程
将 搜索词 过滤,并规范化
通过公式计算搜索词和网页的关联度,并排序。
热门查询,结果缓存
PageRank排序
关键因素:关键字权重-页面权重-网站权重
页面在整个所有页面里的排序
引入及导出链接。每个页面的分值固定。
关键字在页面里的排序
关键字*频次*位置权重 /页面里所有的关键字的权重和
资源有限,将有限的资源用于搜索量高的关键词。
页面突出主题
田忌赛马