我来我网
https://5come5.cn
 
您尚未 登录  注册 | 菠菜 | 软件站 | 音乐站 | 邮箱1 | 邮箱2 | 风格选择 | 更多 » 
 

本页主题: zc和在行的进来一下有好玩的 -- 搜索引擎对文件内容的识别 显示签名 | 打印 | 加为IE收藏 | 收藏主题 | 上一主题 | 下一主题

sinopatic



性别: 保密 状态: 该用户目前不在线
等级: 初出茅庐
发贴: 95
威望: 0
浮云: 1293
在线等级:
注册时间: 2006-10-09
最后登陆: 2007-08-20

5come5帮你背单词 [ radium /'reidjəm/ n. 镭 ]


zc和在行的进来一下有好玩的 -- 搜索引擎对文件内容的识别

如:在Baidu Photo中输入"中国常德",你看到前面的很多图片都是含有不良内容图片的
引擎只识别了文件名而没有识别文件内容
如何将这些不良内容过滤掉
zc你以前那个瓜的"三大gate户网页过滤器"管用吗
有兴趣+能力+时间就好好研究一下吧(签了约啦?可喜~还有几个月,不要偷懒哦)
顶端 Posted: 2006-11-11 23:07 | [楼 主]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ sew /səu/ v. 缝纫 ]


从目前的情况来说,要让图片的内容被搜索引擎理解还存在很多障碍,实现难度比较大~~~

也许有另辟蹊径的方法~~~
思考中……(虽然我很希望所有的信息都是公开可获取得,并不经过任何的过滤~~~呵呵)

p.s.我的3大gate户的新闻提取不是做这个的哈,只是过滤页面噪音,将新闻的标题和正文识别出来而已哈~~
顶端 Posted: 2006-11-11 23:27 | [1 楼]
zc1984





性别: 帅哥 状态: 该用户目前不在线
头衔: 上帝模式
等级: 荣誉会员
家族: 战略研究所
发贴: 10096
威望: 5
浮云: 0
在线等级:
注册时间: 2004-08-24
最后登陆: 2017-06-08

5come5帮你背单词 [ bias /'baiəs/ n. 偏见 ]


Quote:
引用第4楼老子不怕您于2006-11-12 14:58发表的:
search the content?
以前有篇在学业有成的帖子,说的是余弦定理在判定两个文章(向量)相关性(夹角)中的应用,十分有趣,可以参考。


首先分词
然后把分出来的词作为[屏蔽]同分布的分量~~
然后利用扩展的余弦定理进行计算~~~

这个比较有趣
但是对于长篇大论的文章可能不那么适用~~~
毕竟分量太多了~~
比得上数学物理了~~呵呵
顶端 Posted: 2006-11-12 15:29 | [2 楼]
我来我网·5come5 Forum » 程序员之家

Total 0.010209(s) query 6, Time now is:11-27 17:17, Gzip enabled
Powered by PHPWind v5.3, Localized by 5come5 Tech Team, 黔ICP备16009856号