​SEO基础教学四:关于搜索引擎良好设计和开发的基本点
本章将讨论如何从搜索引擎的角度来看待文章。

2017-10-26

第四章关于搜索引擎良好设计和开发的基本点

搜索引擎在如何抓取网络和解释内容方面是有限的。对于搜索引擎来说,网页并不总是像你我所看到的那样。在本节中,我们将重点讨论构建(或修改)web页面的具体技术,以便同时为搜索引擎和人类访问者构建。与你的程序员、信息架构师和设计师分享这部分指南,这样所有参与网站建设的各方都可以同步共享。

1506657780409.png

比如我建了一个巨大的的Flash网站,可是在谷歌的任何地方都没有出现,为什么呢?

可转位的内容

为了在搜索引擎列表中更为显著,你最重要的内容应该以HTML文本格式展现。尽管爬行技术已有所进步,图像、Flash文件、Java applet和其他非文本内容还是经常会被搜索引擎爬虫忽略或贬值。确保你向访问者展示的单词和短语在搜索引擎中可见的最简单的方法是将它们放在页面的HTML文本中。然而,对于那些要求格式或视觉效果更好的人来说,可以使用更为高级的方法:

1、为图像提供alt文本。为这些图像赋值gifjpgpng格式的“alt属性,以使搜索引擎对可见的内容进行文本描述。

2、用导航和可爬行链接来补充搜索框。

3、用文本来补充页面上的FlashJava插件。

4、如果所使用的单词和短语是由引擎索引的,应提供视频和音频内容的文字记录。

用搜索引擎的方式看待你的网站

search1.jpg

许多网站在可索引内容的方面有严重的问题,因此进行复查是有价值的。通过使用像Google's cacheSEO-browser.comthe MozBar这样的工具,你可以看到内容的哪些元素对于引擎来说是可见的、可索引的。

使用谷歌缓存的功能,我们可以知道,在搜索引擎中,JugglingPandas.com的主页不包含所有我们能看到的如此丰富的信息。这就使得搜索引擎很难说明关联度的高低。

那乐趣又在哪儿呢?

哦哦……通过谷歌缓存,我们可以了解到页面是一个贫瘠的荒地,甚至都没有文字告诉我们这个页面包含了用来与猴子搏斗的斧头。这个站点完全是在Flash中构建的,但同时,遗憾的是,这意味着搜索引擎不能索引到任何文本内容,甚至不能索引到单个游戏的链接。如果没有任何HTML文本,这个页面将很难在搜索结果中排上名次。

我们不仅要检查文本的内容,还要使用搜索引擎优化工具来复查您正在构建的页面是否对引擎可见。正如我们在下文看到的,这适用于你的图像,也适用于你的链接。

Crawlable(行抓取)链接结构

就像搜索引擎需要看到内容才能在其庞大的、基于关键字的索引中列出页面一样,他们也需要看到链接,以便首先找到内容。一个可爬行的链接结构——即,让爬行者浏览网站的路径——对于他们在网站上找到所有页面是至关重要的。成千上万的网站犯了一个关键的错误,即,构造导航的方式是搜索引擎无法访问的,这使得搜索引擎无法在索引中列出页面。下面,我们来说明一下这个问题会如何发生:

在上面的描述中,谷歌的爬虫已经到达了页面A,并看到了页面BE的链接。然而,尽管CD可能是站点上的重要页面,但是爬虫无法获取它们(甚至不知道它们的存在)。这是因为没有直接的、可爬行的链接点CD。就像谷歌所看到的那样,它们是不存在的!如果爬虫不能在第一时间到达你的页面,那么再好的内容,再好的关键字目标,以及再聪明的营销将不会发挥它们的作用和影响。

构成一个链接的成分

链接标签可以包含图像、文本或其他对象,所有这些都在页面上提供一个可点击的区域,用户可以通过这个区域连接到另一个页面。这些链接是互联网最初的导航元素——被称为超链接。在上面的插图中,“< a”标记是链接的开头。链接提及的位置告诉浏览器(以及搜索引擎)链接点。本例引用了URL http://www.jonwye.com。接下来,访问者链接的可见部分,也被称为SEO中的锚文本,描述了链接指向的页面。链接的页面是关于Jon Wye制作的定制腰带,因此锚文本是“Jon Wye定制设计的腰带。以“< / a >”标记作为链接的结尾,限制了标记之间的链接文本,并防止了链接包含页面上的其他元素。

这是链接最基本的格式。对于搜索引擎来说,这是非常容易理解的。爬虫们知道他们应该把这个链接添加到引擎的网络链接图中,用它来计算独立的变量(比如谷歌的PageRank),并用它来索引引用页面的内容。

现在让我们来分析一下页面无法被获取的几种常见原因

1506146180401.jpg

1Submission-required(必需提交表单)形式

如果你要求用户在访问某些内容之前完成在线表单,那么搜索引擎将永远不会看到那些受保护的页面。这种表单包括有密码保护的登录或全面的调查。在这两种情况下,搜索爬虫通常不会尝试提交表单,因此任何通过表单访问的内容或链接都是不可见的。

2、不可解析的 JavaScript中的链接

如果你使用JavaScript链接,你可能会发现搜索引擎要么不爬行,要么对嵌入的链接不太重视。在任何你想要爬虫爬行的页面上,标准的HTML链接都应取代(或伴随)JavaScript

3、指向被元机器人标记或Robots . txt屏蔽的页面的链接

元机器人标记和Robots . txt文件都可被站点所有者用来限制爬虫访问页面。要注意的是,许多网站管理员无意中使用这些指令来阻止流氓机器人的访问,结果却发现搜索引擎停止了爬行。

4framesiframes

从技术上讲,framesiframes之间的链接都是可爬行的,但在组织和跟踪方面,它们都可能导致引擎上一些结构性的问题。除非你是一个高级用户,对搜索引擎索引和跟踪链接的技术有很好的理解,否则最好还是远离它们。

5、机器人不使用搜索表单

尽管这与表格上的上述警告直接相关,但这是一个很常见的问题,值得提一下。一些网站管理者相信如果他们在他们的网站上放置一个搜索框,那么引擎就能找到所有访问者搜索的东西。然而,爬虫没有执行搜索去寻找内容,导致数百万页无法访问,而且直到有一个爬行页面链接到它们之前,它们都只能是匿名的。

6FlashJava和其他插件的链接

在杂耍熊猫网站(我们上面的例子)中嵌入的链接是这一现象的完美例证。虽然在页面上列出了数十只熊猫,但没有爬虫可以通过网站的链接结构到达它们,导致引擎看不到它们,也无法从用户的搜索查询中找到它们

7、通向已有成百上千条链接的页面的链接

搜索引擎只会在给定的页面上爬行这么多链接,这个限制对于减少垃圾邮件和保存排名是必要的,这种页面上的数百个链接有可能无法全部被爬行或索引。

如果您避免了这些缺陷,您将拥有干净的、可使用的HTML链接,这将使爬行器能够轻松访问您的内容页。

rel 等于“nofollow”

Rel = " nofollow "可以以以下语法使用:

4-5.png

 链接可以有很多属性。除了rel = " nofollow "这一重要的属性以外,引擎忽略了几乎所有的属性。在上面的例子中,将rel = " nofollow "属性添加到链接标签,这告诉搜索引擎,网站所有者不希望这个链接被解释为对目标页面的支持。

从字面上看,nofollow指示搜索引擎不遵循(尽管有些还是会遵循)链接。nofollow标记是一种用来帮助停止自动博客评论、访客手册和链接注入式垃圾邮件的方法。但是随着时间的推移,它已经变成了一种告诉引擎去贬损一般通过的链接值的方式。每个引擎对于nofollow标记链接的解释有着些许的不同,但是很明显nofollow标记的链接不比普通链接更受重视。

nofollow链接是坏的吗?

虽然nofollow链接没有像其他链接一样传递这么多的价值,但nofollow链接是多样化链接的自然组成部分。一个拥有大量入站链接的网站将会积累许多不受关注的链接,但这并不是一件坏事。事实上,Moz的排名因素显示,排名靠前的网站与排名较低的网站相比,其入站链接的比例往往更高。

谷歌

谷歌指出,在大多数情况下,它们不遵循nofollow链接,这些链接也不会传输PageRank或锚文本值。本质上说,使用nofollow导致谷歌将目标链接从web的总体图中删除。nofollow链接不携带任何权重,并被解释为HTML文本(就好像链接并不存在)。尽管如此,许多网站管理员相信,即使是像维基百科这样的高权威网站,也可以将其解读为可信任的标志。

BINGYAHOO !

用以雅虎搜索结果的必应也声明,尽管他们的爬虫可能仍使用nofollow链接作为发现新页面的一种方式,他们本身并不包括链接图中的nofollow链接。因此,尽管他们可能会遵循这些链接,但他们在排名计算中并没有使用它们。

关键字的使用和目标

402.jpg

关键词是搜索过程的基础。他们是语言和搜索的基石。事实上,整个信息检索(包括如谷歌这样基于web的搜索引擎)都是基于关键字的。当引擎在网页上爬行和索引页面内容时,他们会在关键字索引中跟踪这些页面,而不是在一个数据库中存储250亿个web页面。数以百万计的小型数据库——每一个都以一个特定的关键词或短语为中心——使得引擎在一秒钟内检索他们所需要的数据。

很明显的是,如果你想让你的页面有机会在搜索对象为“dog”的时候排上名,那么最好确保“dog”这个词是你文档的可爬行的内容的一部分。

关键字控制

关键词主导我们如何传达我们的搜索意图以及与引擎的交互。当我们输入单词搜索时,引擎会根据输入的单词来匹配页面。单词的顺序(“熊猫杂耍杂耍熊猫”)、拼写、标点符号和大小写都提供了额外的信息,这些信息是被引擎用来帮助检索正确的页面并排列它们。

搜索引擎度量如何在页面上使用关键字来帮助确定特定文档与查询的相关性。优化页面排名的最好方法之一是确保你想要排名的关键词在标题、文本和元数据中都很突出。

一般来说,当你把关键词变得更具体时,你会减小搜索结果的竞争,提高你获得更高排名的机会。左边的地图图形比较了广义的“books”“Tale of Two Cities”这一具体标题的相关性。请注意,尽管当搜索广义的“books”时有很多的结果,但对于具体(竞争较少)的一个对象,结果要少得多。

滥用关键字

自从开始有网络搜索以来,人们就滥用关键词来操纵引擎。这包括将关键字填充到文本、url、元标签和链接。不幸的是,这种策略几乎总是弊大于利。

在早期,搜索引擎依赖于关键字的使用作为主要的相关性信号,而不管关键字在实际上是如何被使用的。如今,尽管搜索引擎仍然不能像人类那样阅读和理解文本,但机器学习的使用使他们更接近这个理想的目标。

最好的做法是自然地、有策略地使用你的关键词。如果你的页面上的关键词是埃菲尔铁塔,那么自然会包括埃菲尔铁塔本身的内容,塔的历史,甚至含有值得推荐的巴黎的酒店。另一方面,如果你只是把埃菲尔铁塔”(Eiffel Tower)的字样撒在一页写满了不相关内容的纸上,比如满页都关于狗的繁殖,那么你为埃菲尔铁塔”(Eiffel Tower)排名的努力将是一场漫长而艰苦的战斗。

使用关键字的要点不是对所有关键字进行高度评价,而是对人们在需要你的网站所提供的关键字时进行高度评价。

页面优化

406.jpg

关键字的使用和定位仍然是搜索引擎排名算法的一部分,我们可以应用一些有效的关键技术来帮助创建优化的页面。在Moz,我们进行了大量的测试,并看到大量的搜索结果和基于关键字使用策略的变化。当你制作站点的时候,这是我们推荐的过程:使用关键字短语——

1、在标题标签中至少有一次。尽量保持关键字短语接近标题标签的开头。本节后面会有更多关于标题标签的细节。

2、曾在页面顶端附近突出。

3、包括变化,至少在页面上拷贝二三次。如果有大量的文本内容,能再多几次。您可能会发现使用关键字或变体有更多的价值,但在我们的经验中,添加一个术语或短语的更多实例往往对排名很少甚至没有影响。

4、在页面上图像的alt属性中至少有一次。这不仅有助于网络搜索,也有助于图像搜索,它偶尔会带来有价值的流量。

5、曾在URL中出现。稍后将在本节中讨论URL和关键字的附加规则。

6、在meta描述标记中至少有一次。请注意,meta描述标记并没有被引擎用来排名,而是有助于吸引阅读搜索结果页面的搜索者的点击,这是因为元描述成为了搜索引擎所使用的文本片段。

此外,一般不应该在链接锚文本中使用关键字指向站点上的其他页面,这就被称为关键字的蚕食

关键字密度的神话

正如埃尔德尔·加西亚博士在《没有意义的关键字密度》中所展示的那样,关键词密度并不是现代排名算法的一部分。

如果两个文档,D1D2,由1000个术语组成(l = 1000),重复20(tf = 20),那么一个关键字密度分析器将告诉你这两个文档的关键字密度(KD)KD = 20 / 1000 = 0.020(2%)。当tf = 10l = 500时,得到相同的值。显然,关键字密度分析器不确定哪个文档更加相关。密度分析或关键字密度比并未告诉我们:

1、文档中关键字之间的相对距离(邻近)

2、在文档中,术语出现的地方(分布)

3、术语间的共引频率(共发生)

4、文档的主题、题目和子主题(主题问题)

结论:

关键词密度与内容、质量、语义和相关性分离。

标题标签

403.jpg

标题页中的元素就是对于页面内容准确、简明的描述。它就用户体验和搜索引擎的优化来说都很重要。

由于标题标签是搜索引擎优化的重要组成部分,因此,以下为标题标签创建的最佳实践将会带来非常好的低挂搜索引擎优化结果。下面的建议涵盖了为搜索引擎优化标题标签和可用性的关键步骤。

1、注意长度

搜索引擎仅显示搜索结果中最初的65 - 75个字符(在此之后,引擎显示“……”来表示标题标签被切断)。这也是大多数社交媒体网站所允许的一般限制,因此坚持这一限制通常是明智的。然而,如果你的目标是多个关键字(或者一个特别长的关键字短语),并且在标题标签中包含它们是很重要的,那么可以用更长的。

2、把重要的关键字放在前面

你的关键字在标题标签越开头的地方,他们就越有可能排名,用户越有可能在搜索结果中点击它们。

3、涵括品牌

Moz,我们喜欢用一个品牌的名字来结束每一个标题标签,因为这些有助于提高品牌知名度,并为那些喜欢和熟悉一个品牌的人创造更高的点击率。有时候,比如在你的首页上,把品牌放在标题标签的开头是有意义的。由于标题标签开头的单词承载了更多的重要性,所以要注意你想要表达的内容。

4、考虑可读性和情感效果

标题标签应该是描述性的和可读的。标题标签是一个新的访客与你的品牌的第一次互动,应该传达最积极的印象。创建一个引人注目的标题标签将有助于抓住搜索结果页面,并吸引更多的访问者到你的站点。这说明SEO不仅是优化和战略关键字的使用,而且是整个用户体验。

Meta标签

Meta标签最初是作为一个网站内容信息的代理。下面列出了几个基本元标记,以及它们的用法说明。

一、元机器人

元机器人标签可以用来控制搜索引擎爬虫活动(对于所有的主要引擎)在一个页面上。有几种方法可以使用元机器人来控制搜索引擎如何处理页面:

1index/ noindex告诉引擎是否应该抓取该页面,并保存在引擎的索引中,用于检索。如果您选择使用“noindex”,那么该页面将被排除在索引之外。默认情况下,搜索引擎假定它们可以索引所有页面,因此使用索引值通常是没有必要的。

2follow / nofollow告诉引擎是否应该抓取页面上的链接。如果您选择使用“nofollow”,引擎在发现、排名或二者皆有的目的下忽略页面上的链接。默认情况下,所有页面都假定有“follow”属性。示例:<

3noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将保持它们已索引的所有页面的可见副本,通过搜索结果中的高速缓存链接访问搜索器。

4nosnippet告知引擎,它们应该避免在搜索结果的页面标题和URL旁边显示描述性的文本块。

5noodp/noydir是专门的标签,告诉引擎不要从开放目录项目”(DMOZ)“Yahoo ! 目录的搜索结果中获取描述性的片段。

6X-Robots-Tag HTTP头指令也实现了同样的目标。这种技术在非html文件(如图像)内的内容特别有效。

二、元描述

元描述标签作为一页内容的简短描述而存在。搜索引擎不使用这个标签中的关键字或短语进行排名,但是meta描述是结果列表下显示的文本片段的主要来源。

meta描述标签提供了广告拷贝的功能,从结果中吸引读者到你的网站。这是搜索市场营销中非常重要的一部分。使用重要的关键字制作可读的、引人注目的描述(注意谷歌如何在描述中搜索关键字)可以在你的页面上画出更高的点击率。

元描述可以是任何长度的,但是搜索引擎通常会缩减长度超过160个字符的代码片段,因此限制在这个范围内是明智的。

在没有元描述的情况下,搜索引擎将从页面的其他元素中创建搜索片段。对于针对多个关键字和主题的页面来说,这是一个非常有效的策略。

三、不作为重要的元标签

Meta关键词:Meta关键词标签曾经是有价值的,但对搜索引擎优化不再有价值。关于更多其历史和元关键字被废弃的原因,请在SearchEngineLand中阅读meta关键词标记101

Meta 更新, Meta 再访问, Meta 内容类型,以及其他的:尽管这些标签可以用于搜索引擎的优化,但它们对这个过程不那么重要,因此我们将把它留给Google's Search Console Help(谷歌的搜索控制台),以更详细的讨论

URL结构

从搜索的角度来看,URL,即网络文档的地址,是非常有价值的。它们在多个重要的地方出现。

由于搜索引擎在结果中显示URL,它们可以影响点击量和可见性。URL也被用于排名文档。恰当的、描述性的关键字也有利于那些名字包括查询词的页面。

URLweb浏览器的地址栏中出现,而这通常对搜索引擎没有什么影响,糟糕的URL结构和设计可能会导致负面用户体验。

上面的URL用作链接锚文本,指向该博客文章中引用的页面。


404.jpg



URL建设指南

1、使用同理心

用用户的想法来审视你的网址。如果您能够轻松准确地预测你希望在页面上找到的内容,那么你的URL就具有适当的描述性。你不需要在URL中详细说明每一个细节,但是一个大致的想法是一个很好的起点。

2、较短的更好

虽然描述性URL是重要的,但尽量减少长度和拖尾的斜杠会使您的URL更容易复制和粘贴(到电子邮件、博客文章、文本消息等),并且在搜索结果中完全可见。

3、关键字的使用很重要(但过度使用是危险的)

如果你的页面是针对某个特定的术语或短语,确保将其包含在URL中。然而,不要为了搜索引擎优化而尝试在多个关键字中输入关键词;过度使用会导致使用较少的URL和访问垃圾邮件过滤器。

4、静态

最好的URL是人类可读的,没有大量的参数、数字和符号。使用诸如Apachemod_rewriteMicrosoftISAPI_rewrite等技术,你可以轻松地将动态URL,如https://moz.com/blog?id = 123转换为一个更具可读性的静态版本:https://moz.com/blog/google-fresh-factor。即使是URL中的单个动态参数也会降低整体排名和索引。

5、用连字符分隔单词

并不是所有的web应用程序都能准确地解释像下划线(_)、加号(+)或空格(% 20)这样的分隔符,因此使用连字符(-)来分隔URL中的单词,就像上面的“google - fresh - factor”URL示例一样。

内容的规范版本和重复版本

重复内容是任何网站都面临的最棘手和麻烦的问题之一。在过去的几年里,搜索引擎已经通过降低排名来打击那些内容很薄或者内容重复的网页。

当两个或多个版本的网页出现在不同的URL上时,规范化就会发生。这在现代内容管理系统中非常常见。例如,你可以提供一个普通版本的页面和一个打印优化的版本,重复的内容甚至可以出现在多个网站上,对于搜索引擎来说,这带来了一个大问题:应该向搜索者展示这些内容的哪些版本?在SEO圈子里,这个问题通常被称为重复的内容,这里有更详细的描述。

发动机对单一材料的重复版本很挑剔。为了提供最好的搜索体验,他们很少会显示多个、重复的内容片段,而是选择哪个版本最可能是原始版本。最终的结果是,所有的重复内容都可以低于它应有的级别。

规范化是将内容以一种独特的方式组织起来的实践,每一篇文章都有一个,而且只有一个URL。如果你在一个网站(或很多网站)上留下了多个版本的内容,可能会有一个像右边这样的场景:哪个钻石是正确的?

相反,如果网站所有者将这三页和301重新将其定向,搜索引擎将在该站点的列表中只显示一个强大的页面。

当具有优秀的排名潜力的多个页面合并成一个单独的页面时,它们不仅停止相互竞争,而且还会产生更强的相关性和流行信号。这将对你在搜索引擎中排名的能力产生积极影响。

典型的救援方法

搜索引擎一个不同的选择,被称为规范URL标记,是减少单个站点重复内容的实例,并将其规范化为单个URL的另一种方法。这也可以在不同的网站上使用,从一个域的一个URL到另一个域上的不同URL,使用包含重复内容的页面内的规范标记,标准标记的目标指向你想要为之排序的主URL

内部运转

这告诉搜索引擎,问题页面应该被视为URL https://moz.com/blog的副本,而引擎应用的所有链接和内容度量应该返回到该URL

SEO的角度来看,规范的URL标记属性类似于301重定向。本质上,你告诉引擎多页应该被认为是一个页面,但实际上没有将访问者重定向到新的URL,这为你的开发员工带来了许多额外的好处。

对于更多不同类型的重复内容,皮特博士的这篇文章值得特别提及。

丰富的片段

你有没有在搜索结果中看到过5星评级?搜索引擎从嵌入在网页上的丰富的片段中获得了这些信息是很有可能的。Rich snippet是一种结构化数据,它允许网站管理员以提供搜索引擎信息的方式标记内容。

虽然使用丰富的代码片段和结构化数据并不是搜索引擎友好设计的必要元素,但它越来越多的采用意味着在某些情况下,使用它的网站管理员可能会有优势。

结构化数据意味着在内容中添加标记,这样搜索引擎就能很容易地识别出内容的类型。Schema.org提供了一些可以从结构化标记中获益的数据示例,包括人员、产品、评论、业务、菜谱和事件。

搜索引擎通常包括搜索结果中的结构化数据,比如用户评论(stars)和作者简介(图片)。这里有几个很好的资源,可以在网上学习更多关于rich Snippet的信息,包括Schema.org的信息,谷歌的rich Snippet测试工具,以及使用MozBar

在现实中丰富的片段

让我们举个例子,你主持一个关于你的博客的SEO会议。在常规的HTML,你的代码可能会看起来像这样:

4-4.png

现在,通过构造数据,我们可以告诉搜索引擎更多关于数据类型的信息。最终的结果可能是这样的:

4-3.png

维护站点的荣誉

407.jpg

刮刮器是如何窃取你的排名的

不幸的是,网络上充斥着肆无忌惮的网站,他们的业务和流量模型依赖于从其他网站上提取内容,并在他们自己的领域重新使用它(有时会有一些奇怪的修改方式)。这种抓取内容和重新发布的做法被称为抓取,而在搜索引擎的排名中,抓取者的表现非常好,通常会超过原始站点。

当你以任何类型的提要格式发布内容时,如RSSXML,确保“ping”主要的博客和跟踪服务(谷歌,Technorati,Yahoo !)。你可以从他们的网站上找到像谷歌和Technorati这样的服务,或者使用像Pingomatic这样的服务来实现流程的自动化。如果你的发布软件是自定义的,那么对于开发人员来说,在发布时包含自动“ping”是非常明智的。

接下来,你可以使用刮刮器的惰性来对付它们。大多数网站上的刮刮器会在不编辑的情况下重新发布内容。因此,通过返回到你的站点的链接,以及你所编写的特定的帖子,你可以确保搜索引擎可以看到链接返回你的大部分副本(表明你的源可能是发起者)。要做到这一点,你需要使用绝对,而不是内部链接结构中的相对链接。因此,与其使用:

4-2.png

你应该用:

4-1.png

这样的话,当一个刮刀拾取并复制内容时,链接仍然指向你的站点。

还有更先进的防止刮擦的方法,但没有一个是完全万无一失的。你的网站越受欢迎,可见度越高,你就越经常发现你的内容被剪贴并重新发布。很多时候,你可以忽略这个问题:但如果它变得非常严重,你会发现刮刮器夺走了你的排名和流量,你可考虑使用一个叫做DMCA的法律程序。Moz公司首席执行官莎拉·伯德在这个主题——《四种执行版权的方法:当你的在线内容被窃取时该做些什么》——上提供了一些质量建议。


个人觉得很赞
回到顶部图片