我来我网
https://5come5.cn
 
您尚未 登录  注册 | 菠菜 | 软件站 | 音乐站 | 邮箱1 | 邮箱2 | 风格选择 | 更多 » 
 

本页主题: 高价求网站数据抓取解决方案以及代码 显示签名 | 打印 | 加为IE收藏 | 收藏主题 | 上一主题 | 下一主题

seek





性别: 帅哥 状态: 该用户目前不在线
等级: 品行端正
发贴: 251
威望: 0
浮云: 1809
在线等级:
注册时间: 2005-10-01
最后登陆: 2009-06-10

5come5帮你背单词 [ fashionable /'fæənəbl/ a. 时髦的,高级的 ]


高价求网站数据抓取解决方案以及代码

最近在做一个项目,用户要求抓取五个目标网站上面的数据,然后进行规范话,存入数据库,最后把五个网站的数据按照一定的规则显示出来.
但是现在我在做网站数据的抓去时遇到了瓶颈,所以在此向大家求助,如果有谁能够解决这个问题,我一定会高价回报的(以现金的方式).下面我就说说这五个网站的情况.首先这五个网站都需要用户名和密码进行登录,而且不能单击右键看源码(这个可能是网站方不想让自己的数据或代码外流),而且都是以框架的形式构成网页,我们想要的数据所在的框架不能单独访问(虽然我们知道它的URL),如果单独访问会放回默认网页(这个功能是由一段javascript代码实现的),而且我们需要的数据不在同一张网页上,而在几张网页上,但是不同的网页的URL不是直接给出,而是以javascript脚本的方式给出(也就是说,我们点击一个按钮会转页但是这个转页的连接不是直接给出而是通过这样的方式产生:当我们客户端点击一个按钮时,就会向服务器端回发一个信息(但不是将要转到的下一页的URL而是一个脚本函数),然后服务器端根据这个信息给客户端回复所需要的页面).以上就是五个网站的大概情况,如果哪位蝈蝈有经验或则说对这个感兴趣请站内PM或则直接给我打电81771198,到时候在详谈.我在此承诺,一定如果哪位蝈蝈能够解决我一定回以高价回报.
顶端 Posted: 2007-03-17 09:32 | [楼 主]
seek





性别: 帅哥 状态: 该用户目前不在线
等级: 品行端正
发贴: 251
威望: 0
浮云: 1809
在线等级:
注册时间: 2005-10-01
最后登陆: 2009-06-10

5come5帮你背单词 [ parallel /'pærəlel/ a. 平行的,相似的;n. 平行线,纬线,纬圈,类似的事(事物、人情况等);vt. 与…平行 ]


怎么没有蝈蝈回复,期待润新达人进
顶端 Posted: 2007-03-17 10:47 | [1 楼]
newton



性别: 保密 状态: 该用户目前不在线
头衔: Messi + Aimar
等级: 人见人爱
家族: 考研俱乐部
发贴: 2770
威望: 1
浮云: 1777
在线等级:
注册时间: 2004-11-27
最后登陆: 2017-06-08

5come5帮你背单词 [ muddy /'mΛdi/ a. 多泥的,泥状的,混浊的,模糊的,糊涂的 ]


就是web spider....
与其找别人要低劣的代码,还不如,去找<<网络机器人java编程指南>>这本书的配套光盘
把里面的代码改下就差不多了
顶端 Posted: 2007-03-17 12:50 | [2 楼]
seek





性别: 帅哥 状态: 该用户目前不在线
等级: 品行端正
发贴: 251
威望: 0
浮云: 1809
在线等级:
注册时间: 2005-10-01
最后登陆: 2009-06-10

5come5帮你背单词 [ puzzle /'pΛzl/ n. 难题,迷;vt. 使迷惑,使困惑 ]


这个和网络爬虫有区别哈,首先这五个网站需要登陆,其次我们抓取的不是五个网站的所有网页,而是每个网站的几个特殊网页而已.
顶端 Posted: 2007-03-17 13:31 | [3 楼]
rundll





性别: 帅哥 状态: 该用户目前不在线
等级: 品行端正
家族: 考研俱乐部
发贴: 119
威望: 0
浮云: 1162
在线等级:
注册时间: 2006-06-26
最后登陆: 2007-03-25

5come5帮你背单词 [ stimulate /'stimjuleit/ vt. 刺激,使兴奋,激励,使…振奋 ]


弄个CMS也可以
顶端 Posted: 2007-03-17 22:05 | [4 楼]
seek





性别: 帅哥 状态: 该用户目前不在线
等级: 品行端正
发贴: 251
威望: 0
浮云: 1809
在线等级:
注册时间: 2005-10-01
最后登陆: 2009-06-10

5come5帮你背单词 [ yourself /jo:'self/ n. 你(们)自己,你(们)亲自 ]


继续顶起哈
顶端 Posted: 2007-03-18 10:51 | [5 楼]
windkoo



性别: 保密 状态: 该用户目前不在线
等级: 品行端正
家族: RX土鳖卡丁车队
发贴: 145
威望: 0
浮云: 1163
在线等级:
注册时间: 2005-10-04
最后登陆: 2009-05-05

5come5帮你背单词 [ protect /prə'tekt/ vt. 保护,保卫 ]


分析思路:需要登录->可能是有session,需要读cookie
            不能看源码->这个[屏蔽]代码就多了
      特定页面抓取->你研究一下它那个跳转页面的js函数,模仿就行了嘛。
不是很难吧。楼主自己努力哦
顶端 Posted: 2007-03-18 18:24 | [6 楼]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ overwhelming /əuvə'hwelmiŋ/ a. 势不可挡的,压倒的 ]


最龌龊的方法:
1/清空IE的所有记录(包括Cookie/历史纪录等,一切的一切)
2/调用IE去访问这些页面,用脚本控制整个操作过程(大不了用鼠标/键盘记录器,瓦卡卡)
3/转存整个IE的临时文件夹
4/剩下的一些小事情处理一下就搞定了哈~

胡言乱语,打完收工~
顶端 Posted: 2007-03-18 20:31 | [7 楼]
我来我网·5come5 Forum » 程序员之家

Total 0.012383(s) query 5, Time now is:11-27 12:33, Gzip enabled
Powered by PHPWind v5.3, Localized by 5come5 Tech Team, 黔ICP备16009856号