« | Main | »

12 月杂碎一堆

版权声明: 允许非商业性转载,但转载时必须标明原作者 fcicq、原始链接 http://www.fcicq.net/wp/?p=775 及本声明。

www.fcicq.net = apache2-mop.luanda.dreamhost.com
feed.fcicq.net/fcicqblog = fcicqrss.appspot.com/fcicqblog
(如有变动另行通知,再次感谢 vayn 同学给的 Dreamhost 空间)

首先是 RSS 与阅读问题。阅读只会多不会少的问题很多人都有体会。
送两句话。
第一句:
寻找真正的自己(那自己究竟做某事是为了什么?应该考虑一下人生问题,这里不谈这个)。今天看这个人写的好,明天看另一个好。你就是根稻草(随风倒嘛)!
第二句:
(这句大家很熟悉 :D )过度优化(优化自我?阅读是真正的优化吗?稻草再优化也是稻草?)是万恶之源(偶对万恶持保留态度,只是走弯路而已)。

接着是关于 proxy 的杂碎。
http proxy: 支持 GET/POST/HEAD/… URI, 设计良好的 API 能够重置 HTTP METHOD 以适应只支持 GET/POST 的代理
ssl proxy: 支持 CONNECT HOST/IP:PORT,成功后即完成连接,经常有端口限制
socks4/5: 专门协议
tor 可用 ssl 或 socks4/5 proxy 翻墙,vidalia bundle 很方便。

下一个,一种提取 html 中的有用文字的方法,也叫正文抽取。
1 将整个页面以 td,p,table 等作为分割标志,并去掉这些标签。
2 对分割出的每一块做 strip_tags (为了兼容性,应该自己写一个类似的函数),并得到 html 长度与文本长度的比值。
3 根据比值计算并提取。如只根据比值和长度计算就可以用动态规划的方法,找一片长度最大的连续文本(具体参数和策略自己考虑)。

赶快结束,不留结尾。

友情提示: 请注意文章的时效性与准确性, 作者不对文章的有效性负责.

Tags:
Bookmark on del.icio.us
Last Modified: December 21, 2009 at 1:53 pm

« | Main | »

留言请到 GuestBook, 联系方式.

Comments are closed.