« | Main | »

Web Analytics 浅谈 (4)

版权声明: 允许非商业性转载,但转载时必须标明原作者 fcicq、原始链接 http://www.fcicq.net/wp/?p=910 及本声明。

关于分析指标的定义.
偶当然知道有介绍相关知识的 blog.
有会日语的同学请看:
アクセス解析の集計と用語定義ガイドライン
(粗译: 网站分析统计用语定义指南. 有想翻译的须要联系原作者.)

但这个问题偶并不这么看.
既然有 MapReduce, 有 Pig 语言, 这事还有什么难的?

有几个指标偶不是太喜欢, 做了一些修改 (但如果你的程序改不了, 你就别照做了 :D ).
1 Page View.
综合判断为非 Bot 的访客访问的动态页面数. 另外参见下面的 Visit.
(注1: 静态页面分离, 白名单制. 注2: 访客的判定与页面统计代码有关.
注3: 页面统计代码触发数量与日志记录数在统计上方差不大于特定数值.
注4: 会专门处理非名单上的地址列表, 供产品和运营/安全分析)

2 Visit.
Visit 的问题在第一篇里就说过了.
所以对偶来说的 Daily User PV = “本日来的 visitor 总共贡献了多少 PV”.
甚至是本日新来的 Visitor … 当然这个指标不如这个有用: “从某地(这属于 Campaign Tracking)来的新用户, 今天贡献了多少 PV”.
都能长期监控一个订单的起源是谁的推荐, 这个, 不难.

偶说的这个 Daily User PV 指标在 0:00 的时候是无法得到精确结果的. 但你多做几天就大致能够得到与真实日志的比例.
从这个描述就可以看出, 这个 Visit 没有跨日问题. 但 PV 跨日了.
旧有的指标又不是求不出来, 对照看看就可以了.

3 Bounce Rate
这个不根据日志不行. 想提高正确率就要这么干.
已经见过非常多的案例说第一页统计没记录到, 第二页带着第一页的 Referer 当作新 Visit 了. 解法就是使用日志修正统计.
这个定义和实际情况有关: 以日志中记录为准, 判定为非 Bot 用户产生的 Bounce 算 Bounce. 这样就可以算 Bounce Rate 了.

DNS 服务器日志别扔了. 有用. 可以分析从 DNS Response 到 HTTP Request 之间的时间. :D 这个数值有什么用那就自己想了.
这种分析需要考虑阻塞问题, 预抓取问题, DNS 中转(及地域)等问题.

思考题: 如果给你较长的时间(考虑到延时), 但只允许在 A 记录中返回 k (k 肯定大于等于 2 ) 个 IP 中的其中一个, 你能否定位一个具体用户使用的是哪个 DNS 服务器? 假定用户每小时访问该站一次, 并在访问时用 (本地的) DNS 解析域名.

关于技术细节.
图片里也能传数据. 参见 网页统计与 35 Bytes GIF
简单说就是图片的长宽可以做很多事. 也有人喜欢用 HTTP 204 返回一个空文件.
如何使自己的统计图片躲过 Adblock? Privoxy 也有一定的防监控功能.
这个问题自己研究, 篇幅所限, 不写了.

不过具体是否需要这种 hacks 要看情况的. 有些人就会匹配 1×1 :D .
不传数据的话就不需要太重视这个方法.

未完待续. Part 5 为最终回. 预计发布日期未定.

友情提示: 请注意文章的时效性与准确性, 作者不对文章的有效性负责.

Tags:
Bookmark on del.icio.us
Last Modified: July 9, 2010 at 8:42 pm

« | Main | »

留言请到 GuestBook, 联系方式.

Comments are closed.