blog

为什么Google无法正确计算结果

<p>这是我与谷歌的长期抱怨您可以进行搜索,然后重复相同的搜索并从原始集中“减去”一个单词,谷歌将返回更多匹配 - 而不是更少不应该发生但是,并且这就是为什么考虑搜索汽车,报告有546,000,000页匹配该词:现在考虑搜索汽车 - 使用,这应该找到所有与汽车一词相关的页面(一套5.46亿)和然后减去任何有“使用”字样的页面这个数字应该少于5.46亿但是不是相反,该集合增加了1.15亿个匹配,总计达到661,000,000:这没有任何意义这让我感到烦恼多年这是我在2006年写的“我讨厌谷歌的25件事”中的热门话题:1)网络搜索没有意义“为什么搜索引擎会撒谎</p><p>”罗伯特·斯科布尔最近在讨论这个问题不要总是匹配现实哎呀,试试二级贡献“约”59,800,000匹配但是你发现只有879被认为是非重复的!同时,火星登陆站点提供1,050,000个匹配,而火星登陆站点地球几乎是这个数量的两倍,1,840,000个列表它不应该添加额外的单词应该给你一个原始查询的子集它应该回来的结果较少,而不是更多我知道,我知道这是一个错误,或搜索计数很难做,或者他们确实说“约”我知道,他们不是唯一的,也不是第一个(请参阅质疑谷歌的计数,丹尼和特里斯坦谈论关于链接计数,网站计数和索引审计以及谁是他们中最大的一部分</p><p>)知道计数不加起来的长期经验可能让我麻木了问题而善良知道,我不希望返回页数在主页但是再说一遍,如果你打算输出一个数字,也许它应该是准确的</p><p>在这里,我们已经超过五年了,问题仍然没有得到解决今天,它帮助引发了一篇关于谷歌是否正在改变其计数的一篇文章,作为埋葬“谷歌的敌人”的阴谋的一部分呃,没有一些SEO,谷歌垃圾邮件团队主管马特·卡茨介入澄清为何会发生这种情况以下是Cutts所评论的问题:标题问题的答案是“Google是否故意查询破坏</p><p>”是不是我们已经谈过这个事实结果估计只是多年的估计,例如http:// videogooglecom / videoplay</p><p>docid = -4814548594071648913#或http:// wwwyoutubecom / watch</p><p>v = 2ix3mHeL7hg了解更多详情,包括我们只返回三位有效数字的事实关于我们的结果估计为什么查询[AB-C]可以返回比[AB]更多的估计结果,这很容易解释查询[AB -C]使我们更深入地通过我们的发布列表寻找匹配,这可以导致更准确(和更大er)结果估计其他因素可能会导致我们更深入地查找匹配项,例如在搜索结果中更深入地点击结果估算值也可能因您查询所针对的数据中心或索引以及您在其中搜索的语言而异肯定与你是否是“谷歌的可能敌人”无关,正如你所说的那样我们试图非常清楚我们的结果估计只是那个 - 估计理论上我们可以在我们系统的这个方面花费周期,但实际上我们还有很多其他的工作要做,而且更准确的结果估计在列表中比其他很多东西要低我们将其翻译成上面的汽车查询当我搜索汽车时,谷歌快速查看并找到了它有大约5.46亿个匹配页面用于该单词,其中还可以包含实际上不包含该单词但具有该单词的同义词的页面,以及不具有该单词但相关的页面,因为人们通过它链接到它们日超链接中的“汽车”字样当我搜索[cars -used]时,谷歌有效地认为我的问题更难了有点像有人可能会问你一个问题,你知道答案就在脑海中被问到关于“汽车”的问题 - 并且它有一套答案坐在记忆舌头的尖端,可以这么说,准备吐出来而没有太多考虑进入它但是对于更难的查询,谷歌去了“嗯,让我挖掘一下“并且它发现它有更多关于”汽车“的页面,而不是它原来的想法 这给了它一组更大的“汽车”页面,即使删除了“使用”这个词,它仍然比原来的“汽车”设置更大(但是等等 - 这并不意味着谷歌可能会遗漏重要文件,当它没有那么难以思考</p><p>可能,但大多数搜索不太可能流行的文件都是任何人都倾向于查看See On Search:排序结果列表以及如何“专注于第一”有助于隐藏谷歌的相关性问题)另外,还有其他Cutts提到的因素 - 谷歌有很多数据中心,其搜索索引的大量副本遍布全球想象一个在世界各地拥有精确分支的图书馆从技术上讲,它们是彼此的“镜像”实际上,每个图书馆都可能因为各种原因而在这里和那里缺少一些书籍可能导致不同的结果除此之外,计算结果很难谷歌更关心的是多年前准确无误,当它处理onl时数以百万计的网页 - 它还在试图证明它是什么“大男孩”搜索引擎索引如此多的内容但是“更大更好”的日子早已过去谷歌目前存储了数百亿页(确切的数字没有给出)最近的竞争对手也是如此,Bing Neither在许多搜索中有很多优势,因为他们可能有更多的页面,因为网页上的许多页面都是垃圾,没有帮助,不是原创为搜索增加价值的内容如果您了解搜索引擎,您就会明白结果的重要性是多少真的意味着不幸的是,很少有人真正理解搜索引擎这就是为什么我们得到了今天的阴谋理论那么为什么不完全放弃计数呢</p><p>通过推特说Cutts:人们已经谈到完全取消结果估计我不是那个的粉丝仍然有用,即使吵闹有不准确的数字有用吗</p><p>再次来自Cutts:他们并不是没有意义的[A B -C]已经被称为longtemps,但估计在查询中是无状态的;不值得麻烦好的,结果计数旁边的免责声明怎么样</p><p>或者将它们变成一个导致免责声明的链接</p><p>不值得在serps [搜索引擎结果页面]上的像素房地产和讨厌地球上的每个用户更好地揭穿年度阴谋理论我不同意我的意思是,同样可能在搜索框下显示结果计数也很烦人或至少是浪费像素房地产,特别是当他们确实感到毫无意义但更重要的是,这些计数不仅仅被阴谋理论家所使用(去年的重要事件是气候门,他们被使用了......我认为没有理由保留结果我喜欢数据,但它应该是准确的数据 - 而这些数字除了退出它们的时间之外什么都没有,谷歌或至少五年后“它不是我们的最高优先级”的口头禅,最后把它作为优先顺序顺便说一下,整个阴谋事件在Twitter上引发了一场多人对话使用Storify,我把一些评论结合起来:

查看所有