SEO要数据化,目前已经有不少朋友开始认识到SEO数据分析的重要性。其实SEO的数据分析,并不是什么时髦新概念了,很早开始,就有一批“SEO专家”们提倡,“我们要分析数据、分析对手来做SEO”。
虾哥SEO回头看看以前的那些SEO数据分析。有这么几个常见的条目:
1、首页PR(百度权重)
2、Alexa排名
3、Site收录数(索引量)
4、首页快照
5、外链数量
6、核心关键词排名
7、内页长尾关键词排名数量
。。。。。。。
我们先来点评一下,为什么以往的SEO数据分析,不能做到从数据驱动SEO。我们逐条分析一下以往做条目。
1、在其他因素不变的情况下,PR或者百度权重高,流量一定高吗?很显然不是,而且还只是首页的PR值或者百度权重,对于任意一个网站来说,首页的流量仅仅是一小部分,对于超级大站来说,首页的流量所占比例小到可以忽略。(由于基数大,小比例的数据也比很多网站可观了)。首页PR(百度权重)数据完全没必要分析。
2、Alexa的数据还有一定的参考性,但是对国内网站来说,几乎可以无视,除了搞IT的,基本没人会装。Alexa统计的流量是所有流量,并非单纯的SEO流量,所以对SEO没太大关系,不过Alexa的数据获取比较容易,就作为一个参考吧。
3、site收录准不准先不说,问题是site出来的数据有什么意义呢?如果一个网站有1个亿的页面,site出来100万,是好还是坏?一个网站有1万个页面,site出来是1万,是好还是坏?因此,除了site的数据,你至少得知道这个网站有多少页面量,否则site的数据毫无意义;一切收录量还是以百度站长工具当中的索引量为准。
4、首页快照,网页有更新了,爬虫可能拍个照,快照时间更新一下。更多时候你页面动都没动。你指望快照变化对你SEO有什么影响呢?而且和首页PR(百度权重)同理,首页只是一个页面而已,没那么特殊。
5、外链数量,外链为王,外链数量肯定是重要的。外链真的是越多越好吗?有的查询网站很明显排名第1的比排名第10的外链少得多的多。其实外链的整体质量很难衡量,反正你也统计不全,何必要用这个数量作为一个结果,如果相关外链多,则排名就会提高,这不是我说的,是Google、百度说的。所以我们统计排名这个直接因素就好了,而且百度和谷歌对于外链的过滤机制成熟,低质量的外链发太多反而影响网站排名。
6、说到排名,要说说核心关键词的排名与网站整体排名的问题。相信各位SEO站长手头都有自己的网站,看看流量报告吧,那些核心关键词能带来的流量占所有流量的比例是多少?但是一般做SEO优化的时候,大家都习惯于把资源集中在几个核心词上,而大量的关键词流量,都属于没人要的,随便分配一些资源过去,流量就上来了。只看核心词的排名做SEO,属于“捡了芝麻,丢了西瓜”。“两手都要抓,两手都要硬”,平均分配资源,才能收益最大化。
从以上几个数据可以看出,过往的SEO数据分析,分析的数据大都是不靠谱、不准确的。自然对SEO没什么影响,而且从这些数据中,也很难发现核心问题。SEO数据分析,往往就成了一个“噱头”,花了大量时间精力,却连一点效果和指导也没有。
那么如何做SEO的数据分析?先推荐一些前人的智慧(曾庆平SEO:大家可以在百度搜索一下以下文章)
1、前阿里巴巴SEO国平:
详解光年SEO日志分析系统2.0
网页加载速度是如何影响SEO效果的
2、天极网SEO废小米:
百度收录抽查
任重而道远--IT垂直类门户搜索引擎关键词排名对比
虽然有些文章很老,但是到现在也很有指导性作用。先不借用谁的理论,我们从事实出发,好好回想一下用户是如何通过搜索引擎来到我们网站的。
1、用户在搜索框中输入一个关键词。
2、用户在搜索结果页面中阅读大量结果。
3、用户点击进入某个他满意的结果。
这是最简单的一次用户访问,事实上用户还有一些其他情况,本文先不展开讨论。我们还是针对每一条用户操作,设定一些问题,然后再对应问题,找一些数据出来解决这个问题。
1、我们想知道用户搜索了什么关键词?这个关键词的目的是什么?我们的页面能不能满足用户的这种需要呢?
2、我们的页面,如何出现在搜索结果页面中?
3、如何在搜索结果页面中脱颖而出,让用户点击你?
如果把这三点做好,我相信一个网站的SEO流量绝对不会低。我们如何开始做?
就拿第二个问题来看,我们的页面,如何出现在搜索结果中?这是一个看似很愚蠢的问题,“哈哈,不就是收录的问题吗?”,有人会说,“我的网站早就被百度收录了,但是什么流量也没有”。记得之前有一个叫“国际酒店”的频道,上面写有13万酒店预订服务信息。换句话说,这个网站至少有13万个不重复页面,来描述这些酒店信息。百度收录1770,Google收录18200,如果算上一些索引页,那么总体收录比率只有1%,甚至更少。
再换言之,如果我在百度、Google上搜索大部分的国际酒店预订信息、,这个网站的页面可能不会出现在搜索结果中,因为根本还没有被收录。看到一个2017年的数据,说中国2017年的时候有10000多万人次出境。如果估算30%的人需要订酒店入住,那么这就是一个巨大的流量机会了。很显然,这个网站在这块细分蛋糕上还有很大的提升空间。如果SEO集中精力解决这个频道的收录问题,相信对网站业务有很明显的提升。
如何解决收录问题,我相信很多人已经很有办法了,我也就不老生长谈了,很多东西都能在上面推荐的文章中找到,下面总结一下曾庆平自己分析的SEO数据。
某频道爬虫每日抓取量
某频道爬虫每日不重复抓取量
某频道爬虫单页下载时间
某频道网页响应速度
某频道每日爬虫到访次数
某频道最多抓取页面
某频道收录比例抽查
依靠这些数据,我们就能很清楚地了解到某频道的网站收录情况如何,以及问题出在哪里。是压根没爬到?还是爬太少?还是爬不全?还是页面质量太低?还是服务器配置错了?还是服务器宕机了?一切问题,都逃不出这些数据的法眼。
写一些实际点的内容看看SEO到底怎么做。先明确一些基本点,一个网页被收录与否,有两个因素:
1、是否被爬虫爬过。
2、页面质量是否过关。
前面曾庆平已经提过了收录率这么一个指标,很多网站都懒得去做这个指标,“我看看Site的数据不就行了!”,事实上如果没有这个指标,很多工作就无从下手。从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果。最近看了《深入浅出数据分析》这本书,觉得不错,把数据分析的方法讲得很生动,建议从事数据分析的同学可以买本看看。任何数据分析都由“目标>分析>评估>决策”四个环节组成。
目标:我们想看一下网站的收录情况如何,在SEO方面是否还有提高的机会。
分析:收录情况怎样算好怎样算坏,是不是用一些指标来衡量?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况?
评估:于是我们需要下面,一些数据
1、网站的页面层级关系
2、各个层级页面带来的SEO流量
3、各个层级页面的收录情况如何
SEO流量的占比可以从Google Analytics中过滤出来。页面数量可以从数据库获得,或者通过火车头或自制小脚本抓取统计。收录率可以将获取的页面通过工具进行搜索,火车头也可以。问题立马凸显!
1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此!产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内容的问题。
决策:我们的结论是立刻展开行动对目录页面进行收录的优化。看到这里,似乎刚开始的目标:“通过优化收录提升流量”演变成了新的目标:“如何提高目录页面的收录量”。能不能再次通过数据分析的方法进行SEO呢?答案是肯定的。
下面再来重新走一遍:目标>分析>评估>决策的过程。
目标:提高目录页面的收录量。
分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。关于爬虫的情况,需要分析日志才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:“已被爬行的页面数量/已被爬行并且被收录页面数量”来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,至少说明这套页面的内容搜索引擎还算认可(实际情况远比这个复杂,而且收录后也有可能因为质量问题被删除,但总比什么参照都没有要好)
评估:(敏感信息用编号代替,均为真实数据)。先看一下爬虫日志的情况,通过Shell 脚本可以分析出以一下数据。
目录总计被爬行的次数为13000次左右。
不重复的目录爬行次数为5500次左右。
频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。其余频道下的目录被抓取的覆盖率不到30%。不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断地细分、细分、再细分,总会观察出一些端倪的。关于日志分析,不要迷信任何日志分析软件,那都是给懒人用的,“自制脚本+数据库”才是王道,可以拆分显示出任何你想要的数据。然后,我们统计一下被抓得最频繁的频道A和频道B的目录页的收录率频道A和B是很让人放心的,说明页面质量没问题,但是其余的收录情况就让人比较担心了。
决策:通过上面的数据评估,我们已经得到了如下结论。页面质量并不是影响收录的原因。
频道A和频道B的抓取量异常得高,通过调查了解,原来是首页上的目录页,显示的全是频道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。
除了A、B频道,其他频道的抓取情况不容乐观,抓取入口太少、太深,进而影响了收录情况。很明显,现在频道A从站内的角度来说太强大了,必须进行一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道页。
现在问题变得清晰起来,我们开始把工作分成两部分:1、提供更多的入口;2、将资源平分给各频道而不是集中在少数几个频道上。
提供入口工作:
把目录页的URL制作成sitemap提交给搜索引擎,并且将其设置为比较高的抓取权重。完善面包屑导航,将面包屑导航划分得更加细致,以提供更多入口。在其他产品中推荐目录页。
资源平分工作(注:任意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面的相对入口越浅,被抓取的概率越高。)
原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进入的爬虫,全部抓取到频道页,通过频道页再进入目录页(其实这一点不算太重要)。
原先频道页指向自身的产品页,将其全部nofollow。
从目录页返回到首页的链接,将其全部nofollow。
减少一些页面上的无关链接(不管在什么情况下这么做都是非常有效的)。
成果:这么做到底有什么效果呢?我们来看看修改后一个月的数据,目录页的收录率提高了100%!产品页的收录率也有一定程度的提高,这归功于目录页对于产品的良好展现。目录页的SEO表现:
SEO流量占比上升了15%。
增长10%的到访关键词数量(新页面的收录)。
SEO流量增长了50%以上(包含一些季节因素)。