共计 1857 个字符,预计需要花费 5 分钟才能阅读完成。
网站内部结构优化对网站建设起到计划和指导的作用,对网站的内容维护、后期 SEO 起到关键作用。下面主要从网站结构、页面元素、导航结构、后期优化等方面来讲述网站的内部优化,从网站建设的前期就为 SEO 优化、后期维护提供方便和基础。
URL 地址优化
网站自始至终都使用一个 URL 地址,不要来回变更地址,如果用带 www 的域名地址,则将不带 www 的域名使用 301 重定向技术重定向到主要地址,网站的 URL 尽量使用静态 URL,避免使用动态 URL,URL 越短越好,URL 的内容使用拼音或者英文最好,方便记忆。
对于动态网站来说,使用伪静态技术可以让网站的外部看起来和静态网站一样,利于搜索引擎的索引。
robots.txt
robots.txt 是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt 文件用来搜索引擎对目标网页的抓取。
robots.txt 协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。
目录结构
目录结构最好用一级到二级,不要超过三级。目录的组织方式尽量采用:首页 -》栏目页 -》内容页。目录名采用拼音或者英文。
网站地图 Sitemaps
Sitemaps 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页,有点象 BLOG 的 RSS 功能,是一个方便自己的服务,如果大家(互联网上所有的信息源)都采用了这种方式提交自己的更新的话,搜索引擎就再也不用派出那么多爬虫辛辛苦苦的到处乱窜了,任何一个站点,只要有更新,便会自动“通知”搜索引擎,方便搜索引擎进行索引。
Sitemaps 文件通常是 XML 格式的,格式比较简单,Sitemaps 协议以 <urlset> 开始标记开始,以 </urlset> 结束标记结束。每个网址包含一个作为父标记的 <url> 条目。每一个 <url> 父标记包括一个 <loc> 子标记条目。<loc> 是网页文件的网址。此网址应以 http 开始并少于 2048 个字符。<lastmod> 表示该文件上次修改的日期。此日期允许删除时间部分,例如 YYYY-MM-DD。
目前百度、Google、雅虎、微软等搜索引擎都支持 Sitemaps,Sitemaps 的提交可以通过各个搜索引擎的站长平台提交,也可以将其地址放在 robots.txt 文件里供搜索引擎查询,具体方法是:在 robots.txt 的最后一行增加 Sitemap:http://www.domain.com/sitemap.xml。
404 页面
404 网页是用户尝试访问网站不存在的网页(由于用户点击了损坏的链接、网页已被删除或用户输入了错误的网址)时看到的页面。之所以称为 404 网页,是因为针对丢失网页的请求,网络服务器会返回 404 HTTP 状态代码,表明该网页未找到。
通常用户最好创建一个自定义的 404 网页,以便获得这部分用户流量。一个好的自定义 404 网页可以帮助用户找到所需信息、提供其他实用内容及吸引用户进一步浏览用户的网站。
不过,很多网站设计的 404 页面都很简单,不少网站为了不损失流量,在 404 页面里面自动重定向到首页的方式,这并不是一个改善用户体验的设计方法。
Nofollow 的使用
nofollow 标签是由 Google 领头新创的一个标签,目的是尽量减少垃圾链接对搜索引擎的影响,减少博客的垃圾留言,目前百度、Google、Yahoo、微软都支持这一标签。当超级链接中出现 nofollow 标签后,搜索引擎会不考虑这些链接的权重,也不用使用这些链接用于排名。
nofollow 标签通常有两种使用方法:一种方法是将 ”nofollow” 写在网页上的 meta 标签上,用来告诉搜索引擎不要抓取网页上的所有外部和包括内部链接。例如:<meta name=”robots”content=”nofollow”/>。另一种方法是将 ”nofollow” 放在超链接中,告诉搜索引擎不要抓取特定的链接。例如:<a rel=”nofollow” href=”url”>。
对于一个网站来说,为了安全保险起见,所有那些有可能是第三方提交的超级链接都应该添加 nofollow 标签。
统计代码的使用
为了搞清楚访问者来自哪里,访问者在寻找什么,哪些页面最受欢迎,访问者从那些页面进入,从哪些页面退出,网站就必须增加统计代码,依据网站统计系统进行分析,看看页面是否需要进一步优化。目前较为常见的统计工具有百度统计、谷歌分析等。为了不影响网站的加载速度,统计代码最好放在网站底部。