我来我网
https://5come5.cn
您尚未
登录
注册
|
菠菜
|
软件站
|
音乐站
|
邮箱1
|
邮箱2
|
风格选择
|
更多 »
vista
鍙よ壊涔﹂
card
wind
绮夌孩濂抽儙
帮助
统计与排行
无图版
我来我网·5come5 Forum
»
电脑技术
»
程序员之家
»
高价求网站数据抓取解决方案以及代码
交 易
投 票
本页主题:
高价求网站数据抓取解决方案以及代码
显示签名
|
打印
|
加为IE收藏
|
收藏主题
|
上一主题
|
下一主题
seek
∷
性别:
∷
状态:
∷
等级:
品行端正
∷
发贴:
251
∷
威望:
0
∷
浮云:
1809
∷
在线等级:
∷
注册时间: 2005-10-01
∷
最后登陆: 2009-06-10
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
together
/t
ə
'ge
ð
ə
/
ad. 共同地,在一起,相互,彼引,一致地
]
高价求网站数据抓取解决方案以及代码
最近在做一个项目,用户要求抓取五个目标网站上面的数据,然后进行规范话,存入数据库,最后把五个网站的数据按照一定的规则显示出来.
但是现在我在做网站数据的抓去时遇到了瓶颈,所以在此向大家求助,如果有谁能够解决这个问题,我一定会高价回报的(以现金的方式).下面我就说说这五个网站的情况.首先这五个网站都需要用户名和密码进行登录,而且不能单击右键看源码(这个可能是网站方不想让自己的数据或代码外流),而且都是以框架的形式构成网页,我们想要的数据所在的框架不能单独访问(虽然我们知道它的URL),如果单独访问会放回默认网页(这个功能是由一段javascript代码实现的),而且我们需要的数据不在同一张网页上,而在几张网页上,但是不同的网页的URL不是直接给出,而是以javascript脚本的方式给出(也就是说,我们点击一个按钮会转页但是这个转页的连接不是直接给出而是通过这样的方式产生:当我们客户端点击一个按钮时,就会向服务器端回发一个信息(但不是将要转到的下一页的URL而是一个脚本函数),然后服务器端根据这个信息给客户端回复所需要的页面).以上就是五个网站的大概情况,如果哪位蝈蝈有经验或则说对这个感兴趣请站内PM或则直接给我打电81771198,到时候在详谈.我在此承诺,一定如果哪位蝈蝈能够解决我一定回以高价回报.
Posted: 2007-03-17 09:32 |
[楼 主]
seek
∷
性别:
∷
状态:
∷
等级:
品行端正
∷
发贴:
251
∷
威望:
0
∷
浮云:
1809
∷
在线等级:
∷
注册时间: 2005-10-01
∷
最后登陆: 2009-06-10
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
privilege
/'privilid
3
ə
/
n. 特权,优惠,恩典,荣幸
]
怎么没有蝈蝈回复,期待润新达人进
Posted: 2007-03-17 10:47 |
[1 楼]
newton
∷
性别:
保密
∷
状态:
∷
头衔:
Messi + Aimar
∷
等级:
人见人爱
∷
家族:
考研俱乐部
∷
发贴:
2770
∷
威望:
1
∷
浮云:
1777
∷
在线等级:
∷
注册时间: 2004-11-27
∷
最后登陆: 2017-06-08
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
same
/seim/
a. 相同的,一样的;pron. 同样的人或事
]
就是web spider....
与其找别人要低劣的代码,还不如,去找<<网络机器人java编程指南>>这本书的配套光盘
把里面的代码改下就差不多了
Posted: 2007-03-17 12:50 |
[2 楼]
seek
∷
性别:
∷
状态:
∷
等级:
品行端正
∷
发贴:
251
∷
威望:
0
∷
浮云:
1809
∷
在线等级:
∷
注册时间: 2005-10-01
∷
最后登陆: 2009-06-10
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
leakage
/'li:kid
3
ə
/
n. (泄)漏,漏出物
]
这个和网络爬虫有区别哈,首先这五个网站需要登陆,其次我们抓取的不是五个网站的所有网页,而是每个网站的几个特殊网页而已.
Posted: 2007-03-17 13:31 |
[3 楼]
rundll
∷
性别:
∷
状态:
∷
等级:
品行端正
∷
家族:
考研俱乐部
∷
发贴:
119
∷
威望:
0
∷
浮云:
1162
∷
在线等级:
∷
注册时间: 2006-06-26
∷
最后登陆: 2007-03-25
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
peculiar
/pi'kju:lj
ə
/
a. 特有的,特别的,奇怪的
]
弄个CMS也可以
Posted: 2007-03-17 22:05 |
[4 楼]
seek
∷
性别:
∷
状态:
∷
等级:
品行端正
∷
发贴:
251
∷
威望:
0
∷
浮云:
1809
∷
在线等级:
∷
注册时间: 2005-10-01
∷
最后登陆: 2009-06-10
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
prime
/praim/
a. 主要的,基本的,极好的,第一流的;n. 全盛时期,青壮年时期
]
继续顶起哈
Posted: 2007-03-18 10:51 |
[5 楼]
windkoo
∷
性别:
保密
∷
状态:
∷
等级:
品行端正
∷
家族:
RX土鳖卡丁车队
∷
发贴:
145
∷
威望:
0
∷
浮云:
1163
∷
在线等级:
∷
注册时间: 2005-10-04
∷
最后登陆: 2009-05-05
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
terrify
/'terifai/
vt. 吓唬,惊吓
]
分析思路:需要登录->可能是有session,需要读cookie
不能看源码->这个[屏蔽]代码就多了
特定页面抓取->你研究一下它那个跳转页面的js函数,模仿就行了嘛。
不是很难吧。楼主自己努力哦
Posted: 2007-03-18 18:24 |
[6 楼]
zc1984
∷
性别:
∷
状态:
∷
头衔:
上帝模式
∷
等级:
荣誉会员
∷
家族:
战略研究所
∷
发贴:
10096
∷
威望:
5
∷
浮云:
0
∷
在线等级:
∷
注册时间: 2004-08-24
∷
最后登陆: 2017-06-08
【
复制此帖地址
只看此人回复
】
5come5帮你背单词 [
indicator
/'indikeit
ə
/
n. 指示物,指示器,指示剂
]
最龌龊的方法:
1/清空IE的所有记录(包括Cookie/历史纪录等,一切的一切)
2/调用IE去访问这些页面,用脚本控制整个操作过程(大不了用鼠标/键盘记录器,瓦卡卡)
3/转存整个IE的临时文件夹
4/剩下的一些小事情处理一下就搞定了哈~
胡言乱语,打完收工~
Posted: 2007-03-18 20:31 |
[7 楼]
快速跳至
|- 站务管理
|- 惩罚,奖励公布区
|- 会员咨询意见区
|- 申请区
|- 已批准申请区
|- 威望和荣誉会员推荐区
|- 5come5名人堂·Hall of Fame
>> 休闲娱乐
|- 灌水乐园 大杂烩
|- 精水区
|- 幽默天地
|- 开怀大笑(精华区)
|- 灵异空间
|- 运动新时空·菠菜交流
|- 动之风.漫之舞
|- 新货上架
|- 古董挖挖
|- 唯美贴图
|- 创意&美化&设计
|- 5COME5头像及签名档图片引用专区
|- 艺术摄影
|- 音乐咖啡屋
|- 音道乐经
>> 热点讨论
|- 工作交流
|- 求职信息
|- 就业精华区
|- 同城联谊
|- 留学专版
|- 情感物语
|- 情感物语精华区
|- 带走一片银杏叶
|- 精华区
|- 新闻直通车
|- 众志成城,抗震救灾
|- 衣食住行
|- 跳蚤市场
|- 旅游出行
>> 学术交流
|- 学业有成
|- 智力考场
|- 考研专版
|- 外语乐园
|- 考试·毕业设计
|- 电子设计·数学建模
|- 学生工作·社团交流·RX
|- 电脑技术
|- 电脑F.A.Q.
|- 软件交流
|- 硬件·数码
|- 程序员之家
|- Linux专区
|- 舞文弄墨
|- 历史&文化
|- 军临天下
|- 军事精华区
|- 财经频道
>> 游戏新干线[电子竞技俱乐部]
|- Blizz@rd游戏特区
|- WarCraft III
|- 魔兽区档案库
|- 魔兽争霸3博彩专区
|- StarCraft(new)
|- 暗黑专区
|- 休闲游戏区
|- PC GAME综合讨论区
|- 实况足球专区
|- Counter-Strike专区
|- TV GAME& 模拟器
|- 网络游戏
>> 资源交流
|- 恋影部落
|- 连续剧天地
|- 综艺开心档
|- 书香小筑
|- 小说发布
|- 资源交流
|- 综艺、体育、游戏资源发布
|- 音乐资源发布区
|- 电影电视剧发布区
|- 字幕园地
我来我网·5come5 Forum
»
程序员之家
Total 0.011702(s) query 5, Time now is:11-27 07:45, Gzip enabled
Powered by PHPWind v5.3, Localized by
5come5 Tech Team
,
黔ICP备16009856号