欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载  

    seo课程搜索引擎.ppt

    • 资源ID:3526789       资源大小:7.72MB        全文页数:83页
    • 资源格式: PPT        下载积分:8
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要8
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    seo课程搜索引擎.ppt

    搜索引擎,提纲,搜索引擎的发展简史 搜索引擎的分类 使用搜索引擎 搜索引擎的基本原理 第一次上机总结 搜索经济 搜索引擎的未来发展趋势,回顾,搜索引擎分类 搜索引擎使用 与 或 非 强制搜索,目录搜索引擎,以人工方式或半自动方式搜集信息 信息准确、导航质量 缺点是需要人工介入、维护量大、信息量少、信息更新不及时,机器人搜索引擎,由一个称为蜘蛛(Spider)的机器人程序自动搜索信息 优点:信息量大、更新及时、无需人工干预 缺点:返回信息过多,有很多无用信息。,元搜索引擎,利用其他搜索引擎返回统一的搜索结果。 返回信息量更大、更全。 缺点是不能充分使用所有搜索引擎的功能,Google基本搜索,基本搜索方法逻辑“与”、“非”、“或”,即+,-,OR 1.与操作:搜索结果要求包括两个及两个以上关键字。 关键字之间用空格。 2.非操作:搜索结果要求不包含某些特定信息。在排除的关键词前加-,英文字符,-号前空格,后面不能有空格。 3.或操作:搜索结果至少包含多个关键字中的任意一个 关键字之间用“OR”表示,OR必须用大写。 GOOGLE不支持通配符,关键字中的“*”或“?”会被忽略。 GOOGLE对英文字符大小写不敏感。 GOOGLE用句子做关键字,必须加英文引号。,google强制搜索,Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理. 搜索:www的历史 internet 结果:因为使用过于频繁,没有被列入搜索范围: www 的 强制搜索的方法是把关键字用英文双引号引起来. 搜索:“www的历史“ internet” 结果:已搜索有关“www的历史“ internet的网页. 注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行.,Google限定搜索,Site表示搜索结果局限于某个具体网站或者网站频道 Link返回所有链接到某个URL地址的网页 Inurl返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。 Intitle语法返回的网页标题中包含第一个关键词,后面的关键词则出现在链接中或者网页文档中。 filetype在某一类文件中查找信息。,作业情况,从用户的角度看搜索引擎,搜的快,搜的全,搜的准 功能多,好用,好看,搜的快,搜的全,功能多,好用,好看,北大天网,4 搜索引擎的基本原理,-,搜索引擎工作原理,搜索引擎三段式工作流程,搜集 批量搜集,增量式搜集;搜集目标,搜集策略 预处理 关键词提取;重复网页消除;链接分析;索引 服务 查询方式和匹配;结果排序;文档摘要,搜集,整理,服务,搜索引擎系统的体系结构,网页搜集,网页数据库的基本策略: 1)定期搜集: 2)增量搜集: 网页的抓取策略: 1)“爬取”策略: 2)维护URL:,“爬取”策略,将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。 这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行,维护URL,系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。 每搜到一个网页,如果它发生变化并有新的URL,就将新URL也放到集合中。,人工添加,网站拥有者主动向搜索引擎提交自己的网址 系统在一定时间内定向向那些网站派出“蜘蛛”程序,扫描并收集有关信息。,存储网页,搜集到的网页将存储到知识库(repository)中。 知识库包含每个网页的docID,长度,URL以及网页的全部HTML。 由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。,预处理,关键词的提取 重复或转载网页的消除 链接分析 网页重要程度的计算,关键词的提取,什么是倒排文件(inverted file)? 需要从网页源文件中提取出能够代表它的内容的一些特征,而关键词就是这种特征最好的代表。 其中涉及到英文的分词和中文的分词。 对一篇网页来说,有效的词语数量一般是200左右。,链接分析,链接是分析网页重要的信息 1.链接描述文字准确的反映了网页的内容 2.网页之间的链接关系,反映了网页的重要程度(PageRank Google),网页重要程度计算,PageRank(Google) 指向一个网页的链接越多,说明这个网页越重要。 把整个web结构看作一个矩阵。N个网页就形成一个n×n的矩阵。,查询服务,查询方式和匹配 结果排序 文档摘要,查询方式和匹配,查询方式指的是系统允许用户提交查询的方式。 查询短语 分词 对查询短语进行分词 匹配 将查询关键词与倒排文件的索引词进行匹配,结果排序,按照某种评价方式,将搜索结果以某种顺序显示出来。 评价方式 相关性 早期采用基于词汇出现频度的方法 词在不同文档中出现的频率 PageRank 在预处理阶段形成重要性指标,和查询阶段的相关性指标相结合。,文档摘要,静态生成方式 预处理阶段生成,如取网页的前512个字节,或者取每一段的第一句话。 动态生成方式 在查询时,根据查询关键词的位置动态生成。,6 搜索经济的诞生,-,中国互联网络发展状况统计报告,2010年7月 15日,中国互联网络信息中心(CNNIC)在京发布了第26次中国互联网络发展状况统计报告(以下简称报告)。报告显示,截至2010年6 月底,我国网民规模达4.2亿人,互联网普及率持续上升增至31.8%。手机网民成为拉动中国总体网民规模攀升的主要动力,半年内新增4334万,达到 2.77亿人,增幅为18.6%。值得关注的是,互联网商务化程度迅速提高,全国网络购物用户达到1.4亿,网上支付、网络购物和网上银行半年用户增长率均在30%左右,远远超过其他类网络应用。,互联网的重心发展历程,注意力经济(眼球经济),提供网上图片等各种信息 注重提供免费信箱、聊天室等各种服务 吸引人来,注重会员数。,从眼球经济到拇指经济,被动,主动,搜索力经济,拇指变成了十指,被动变成了主动 搜索成了网络经济的引擎和发动机,搜索引擎的盈利模式,搜索引擎最初并没有显示出价值,只是一个免费的附加服务。 PageRank算法的诞生,使得网络盈利成为可能 根据搜索结果显示相应的广告,这是网络广告的真正创新,搜索引擎的盈利模式,竞价排名 1998年Overture推出收费竞价排名服务,谁出的钱多,谁排前面,搜索引擎成了摇钱树。 搜索与购物网站绑定,时长竞价排名,按天竞价 消除恶意点击,搜索等于搜钱,2007年中国搜索引擎市场规模达29.0亿元,比上一年增长108.3% 艾瑞咨询,中国搜索引擎市场份额,中美日市场规模对比,重构搜索力,2003年8月,搜索引擎重新回到Yahoo首页的突出位置。 并不完全是搜索引擎可以赚钱了 关键是它还可以整合其现有的业务资源 2004年8月,搜狐推出了搜索引擎搜狗。 2003年开始,微软重组MSN部门,并希望在下一代操作系统中集成搜索。 亚马逊推出了A9网站,专注于购物搜索,搜索引擎大战,微软数次提出要收购Google. 结果被Google挖走李开复 IBM也推出了自己的搜索技术 搜索引擎和门户网站之争 养虎为患 不得不养 复杂的竞争合作关系,中国搜索用户的首选,中国高端搜索用户的首选,群狼共舞,搜索鸟,网络世界的未来统治者?,目前,Google是当之无愧的世界老大? 但是未来呢? Google在中国呢?,搜索引擎的未来发展趋势,-,搜索引擎自身的发展趋势,专业化 主题化 垂直搜索引擎 个性化 搜索工具条 桌面搜索 智能化 本地化 基于位置的搜索服务,技术更复杂,应用更简单,搜索引擎所引发的互联网变化,搜索引擎的革命引发互联网应用模式、商务模式和业务形态的革命 搜索将成为一个网站的必备配置 搜索引擎的综合化 基于搜索引擎的信息增值业务竞争情报系统、商务搜索、8848的购物搜索、Google信箱,搜索引擎的重要性,从内容为王到搜索为王 从搜索服务到搜索平台 基于搜索平台的搜索增值服务,Google 向 Microsoft 发出挑战,Microsoft PK Google PC时代 PK Internet时代,产品竞争,人才竞争,历史事件回放: 2005年7月18日,微软全球副总裁李开复跳槽Google,担任中国区总裁,Microsoft 与 Google 的竞争,代表两个时代的竞争 PC时代 vs 互联网时代 李开复跳槽事件已经超出了微软与Google两家公司对一位技术人才的争夺本身。这是一场PC时代巨人和互联网时代巨人对于未来霸主地位的争夺 预言以微软为代表的PC时代正在加速没落,而Google正在显示一个新时代引领者的形象,回首PC时代,美国 Microsoft、IBM、Intel. 中国 Lenovo、Founder.,面对机遇,展望Internet时代,美国 Google、Yahoo、Ebay、. 中国 Baidu、NetEase、Alibaba.,美国模式和中国模式,美国模式=技术+机遇+管理 重视技术开发、重视研发投入 Microsoft=Bill Gates + PC Yahoo=杨致远、David Filo + Internet Google=Larry Page、Sergey Brin + Internet,中国模式=管理+技术+机遇 薄利多销巨大市场带来的消极影响 不重视技术开发和研发经费投入 短视行为、跟进行为 (DVD、VCD行业的教训),谢谢大家,

    注意事项

    本文(seo课程搜索引擎.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开