MyRss之二---需求和必要性

Rain 发表于 2008-04-22 19:13:06

听从Solrex的建议,在学习的时候直接看Python的tutorial和Lib,然后通过写一些简单的代码来逐步熟悉库:)
Mock Bank的测试工作已经进行的差不多了,最近要集中精力来做这个“可配置的Spider”

这个玩意的需求是具有普遍性的,我们有时候会去搜索引擎反复的搜索某个关键字,比如特别关注奥运的 可能每天都去搜索下和奥运有关的新闻。但是这么做的人倒没有想象的多,就是因为搜索引擎的重复结果太令人烦躁了。这个东西很讨厌,我举个例子就很清楚了:

单击显示大图
Google

当然这个是冗余中的一种:由于转载引起的搜索结果冗余
另外一种我管他叫挖坟,什么叫挖坟:历史沉淀引起的结果冗余。
Google下 奥运火炬就可以了。很多奥运火炬手选拔的网页由于SEO的作用很靠前,那么我最想看的敏感事件呢,基本是没有的。

现在Google news已经做得很好了,但是出于学习的态度和扩展性的态度。还是试探性的写写吧:)
-------------------------------------------

 需求有哪些:
1 通过订阅Google news RSS的方式 可以最简单的获得主流媒体对订阅关键字的报道和相应。
2 通过制定crawl的起始页面和爬行的深度 可以爬到某些特定相关网页上的内容。然后再过滤显示。
3 对整理到的News整理入库,新入库的文章要去重复。
4 可以对觉得好的News加标记,并且可以导出到XML文档里面。
5 能自动运行,并且发现新的News能弹出notify.
6 最好能有个友好的GUI

--------------------------------------------

目前已经做的:
1 通过引入feedparser可以实现对指定rss的解析【Done】
2 crawl的问题也能解决 难点在于如何把html中的信息再有效的提取出来,html实在太混乱了!实在不行就全部显示出来,去掉图片。【To be done】
3 调用db库可以方便的操作数据库【Done】
4 重复的问题 使用马上要说的对标题最长模式匹配来做吧【Done】
5 自动运行 弹出notify的东西就弹出一个dialogue,然后高亮新出来的玩意就好。
6 GUI的东西wxPython in Python是个很简洁的书:
    http://www.pythontik.com/blog/article.asp?id=177 有热心的pythoner翻译成CN了,赞一下。

关键词(Tag): rss python se 冗余


收藏: QQ书签 del.icio.us 订阅: Google 抓虾

最新评论

发表评论

* 昵称

已经注册过? 请登录

新用户请先注册 以便能显示头像及追踪评论回复

Email
网址
* 评论
表情
 
 

分类小组论坛
杂谈, 娱乐、八卦, 文学、艺术, 体育, 旅游、同城, 象牙塔, 情感, 时尚、生活, 星座, 科技

请注意遵守中华人民共和国法律法规, 如威胁到本站生存, 将依法向有关部门报告, 同时本站的相关记录可能成为对您不利的证据.

相关法律法规
全国人大常委会关于维护互联网安全的决定
中华人民共和国计算机信息系统安全保护条例
中华人民共和国计算机信息网络国际联网管理暂行规定
计算机信息网络国际联网安全保护管理办法
计算机信息系统国际联网保密管理规定