今天要介绍的东西已经不算什么新的玩意儿了,几年前就有人各种介绍了,最近已经冷下来了。不过在现在恶劣的网络环境当中,这样的工具变得越来越有实用价值了。
我们知道通过 Google Reader 订阅的 RSS 源只要有更新就会被 Google 记录,从而即使原文被删除,Reader 中还是有原文的记录,于是我们甚至还可以通过 Google Reader API 获取历史 RSS 条目。所以像韩寒那样的博客在 Reader 中总是能够读到原文。
但是最近我发现新浪博客的停止了全文 RSS 源输出,而仅仅输出摘要,导致一旦文章被删,Reader 里也只剩下摘要了,再要找原文看就比较麻烦了。这时候我想到了 Yahoo! Pipes 这个异常强大好用的数据整合工具,给博客来做个全文 RSS 源应该是轻而易举吧。结果在创建过程当中,发现新浪博客在博客文章源码中做了一些很恶心的处理(见下图),会抽出文章中的几段文本,随即插入文章中,再设定样式将其隐藏,导致用普通的全文抓取的方法来制作 RSS 源会生成不少重复的文本块,插入文章中以后根本无法正常阅读。 »Read More