Web Analytics 浅谈 (3)
版权声明: 允许非商业性转载,但转载时必须标明原作者 fcicq、原始链接 http://www.fcicq.net/wp/?p=909 及本声明。
关于前端技术.
要想把 DNS lookup 和文件请求数都降下来, 首先要把文件拿到自己的网站上, 甚至和自己的 js 文件合并. 这个地方偶觉得某些人还是太信任大厂了.
是, 他们能把 uptime 优化的很好, 网络方面 BGP 互联的链路也有好多条. 前面都说了有 DNS 和请求数的问题, 所以这一条还是有必要专门提出来的.
偶跑会题玩, 大家不要介意, 看不明白请跳过.
现在 IPv4 的情况实在是太混乱. 省级 ISP 都有 AS 号码了吗? 偶印象中好像不是 100% 都有.
就算有, 那又是谁在管理广播这类的事情呢? 要没人管的话有也没用.
IPv4 还一年多就用完了, IPv6 这方面基础做的还是不错的. 日后 IPv6 时代想做双线 BGP 机房偶想也会比以前容易的多.
电信和网通的距离不就是两个核心 AS 的距离嘛. 他们不想直接相连那就慢.
(更多牢骚请见 ps, 错过会后悔的
)
不跑题了. 有些网站加了不只一个统计代码. 甚至不开 js 就不允许访问具体内容页面. 你要只是一个小网站加着玩偶倒不反对.
新浪是一个非常坏的典型. 偶倒要等着看新浪多数页面的 yslow 评分到哪一年才能提到 65 分.
偶就说, 这么大的网站搞优化确实不易, 但需要注意的是, 体验和口碑又值多少钱呢?
别以为你不是 Amazon, 卖的不是具体产品就可以不考虑这些问题.
许多人招聘的时候要求前端不容忍页面上像素的偏差, 偶的看法不一样.
字体, 间距, 像素图这样的东西差 1px 区别挺大, 但分栏上错 1px 偶倒不觉得会有什么问题, 虽然说现在有各种 Grids, 想搞错也难了.
闲话打住. GA 的异步新代码出来有一段时间了, 这个代码的特点是 _gaq.push().
在统计代码加载之前它就是普通的 array (如已加载则保持不变). 加载之后它处理 queue 中的项目, 并接管 _gaq.
测试自己的代码的方法, 就是放马去溜. 嫌慢不出结果的可以自己多模拟模拟.
IE Tester 不错, 但偶好久没用过了. 这方面真前端更有发言权, 偶是个冒牌货.
关于数据采集.
IP, 网址, 来路(Referer), User-Agent 什么的就不说了.
访问深度这个概念偶不知道是什么时候提出来的. 这个指标是根据短时记录在 cookies 中的来路和网址做综合的判断得到的. clicki 的代码可以作为参考. 人均 PV 数很容易求, 不提.
国外的分析喜欢用 Visits, 国内则用 IP. 偶更倾向于 IP 的判断, 但如果能够合并跨两个 IP 的 Visit, 偶倒也愿意.
偶认为, 面向用户群的不同是产生统计区别的原因.
面向新用户的网站更倾向 IP. 更注重回头客的网站喜欢用 Visits. 这两种实际上是不矛盾的.
屏幕颜色深度, 分辨率之类的拿了也就拿了. Java 和 Flash 支持的问题偶觉得没有必要占据大量的代码空间. 语言时区还算比较必要.
接入商值得花时间去分析. GA 用的是 Whois 记录. 国内则喜欢用 IP 库, 确实用 IP 库能分析出不少东西来.
行为统计是一个热点. 可是你的统计系统是否有能力得到这样的数据?
例如有行为 A 的用户也进行了行为 B. 这类用户特征 C 的比例较平均要高 (特征即来路, 地域等指标).
从商品上做协同推荐偶想很多人都能做. 从这个层面呢?
未完待续 (不过下篇写什么还没想好, 时间跨度也许会长一些).
ps:
偶选择托管商的方法是非常简单而又有效的 (因为偶没钱). 如果能够接触到目标服务器的话可以用直接统计法.
从后台统计分析出访问分布来, 取几个排名靠前的 ISP 网络并在其中取几个间隔较大的 C 段 IP 作为样本.
收集一些 traceroute 数据分析一下 (如果只是直接看的话推荐 mtr, 反正这个怎么搞都可以).
使用 (traceroute) 节点间平均速度 (后一个减前一个) 构建(最小?)生成树. 最后算权重就可以了.
—此时生成树应该包括大量的中间路由器, 目标节点, 用户节点 (不一定要是真实用户, 离用户还有一两跳就可以认为是用户了)
如果你会点统计知识的话可以把方差也考虑上. 这里还有一个权值的问题 (用户分布不均匀).
这种方法只需要一台机器, 不需要找用户去 ping (为什么?). 精确度虽然比 ping 要差一些, 但对于这种用途偶想也够了.
不知道这种方法能省多少钱和乱跑的精力. 这种方法就送到你面前了.
ps2:
当初偶说豆瓣很原始, 鼓动用户去 ping 服务器测速. ![]()
参见 纯属道听途说的笔记
贴子名字是 “请帮忙ping一下两个地址”.
友情提示: 请注意文章的时效性与准确性, 作者不对文章的有效性负责.
Tags:
Permalink Bookmark on del.icio.us
Last Modified: June 23, 2010 at 12:36 pm