« Posts tagged RSS

利用Yahoo! Pipes制作全文RSS源

今天要介绍的东西已经不算什么新的玩意儿了,几年前就有人各种介绍了,最近已经冷下来了。不过在现在恶劣的网络环境当中,这样的工具变得越来越有实用价值了。

我们知道通过 Google Reader 订阅的 RSS 源只要有更新就会被 Google 记录,从而即使原文被删除,Reader 中还是有原文的记录,于是我们甚至还可以通过 Google Reader API 获取历史 RSS 条目。所以像韩寒那样的博客在 Reader 中总是能够读到原文。

但是最近我发现新浪博客的停止了全文 RSS 源输出,而仅仅输出摘要,导致一旦文章被删,Reader 里也只剩下摘要了,再要找原文看就比较麻烦了。这时候我想到了 Yahoo! Pipes 这个异常强大好用的数据整合工具,给博客来做个全文 RSS 源应该是轻而易举吧。结果在创建过程当中,发现新浪博客在博客文章源码中做了一些很恶心的处理(见下图),会抽出文章中的几段文本,随即插入文章中,再设定样式将其隐藏,导致用普通的全文抓取的方法来制作 RSS 源会生成不少重复的文本块,插入文章中以后根本无法正常阅读。 »Read More

通过Google Reader API获取历史RSS条目

有时候你看到了一个好的Blog,于是你订阅了它,但你会发现,如果直接访问订阅的RSS源,它只会返回最新的10-20条内容,这是由Blog服务器决定的。如果偶们非常希望能够看到它以前所有的文章,怎么办呢?

订阅至Google Reader是个好办法,Google Reader发现你希望看到更多条目的时候,自动会获取更多的历史条目。这是怎么做到的呢?原来Google童鞋已经爬了多年的网络了,它所爬到的信息都存在它的数据库里,所以其实当Google Reader提供给你这些历史条目的时候,它实际上是从它所爬到的数据库中提取出来的。但有时候使用Google Reader也不够方便啦,因为它是增量式提供给你信息的,如果这时候希望获得所有的条目,用Google Reader一小段一小段地去取实在太过麻烦。今天发现了一个方法,很有效,很方便,推荐给各位童鞋。

»Read More