php开源嘛
首页 | English | MySql数据库 | Php编程 | 建站杂烩 | 系统服务器 | 资源共享 | 专题 | 才桀网 | 支持论坛
  当前位置:主页>资源共享>网站运营>文章内容
中英文搜索结果的一个小实验
来源:okce.net 作者:okce.net 发布时间:2007-06-19  

    眼球追踪研究的研究者发现,中国搜索引擎用户阅读搜索结果的页面较长,并将这一原因部分归咎于中文方块字的构造与表义方式不便阅读。对此大不以为然。

    中文确实不是一种适合互联网传播的文字,这已经成为一种共识(其原因并不是本篇要讨论的问题),我也并无异议。但具体到研究者的归因,却并不能让人信服。

    在字号、间距、行距等相同的情况下,相同面积(印刷或屏幕显示)的中文所包含的信息量要远大于英文。很多年前的语文课上,就经常会拿联合国相同文件的各语言版本中,中文版最薄来举例说明。这点,应该并无异议。

    百度的搜索结果页面,每项结果由标题和三行以下摘要组成;Google.com的搜索结果中,每项结果由标题和两行以下摘要组成(中英文都是如此)。如此,面积大致相同,每项中文结果提供的信息量(请机械理解,不要作为有效信息量等来理解)无疑也是远超英文(而且百度的面积更大,同理愈甚)。这应该是一个有效的解释。

    为此,做了一个简单的实验。实验步骤如下:

    选择一个关键词,中英文相对(这里选择的是布什和Bush);

    分别在百度搜索布什,Google.com搜索布什和Bush;

    均选择第一页的十项结果,统计各自的中文字符数和英文单词数(使用的是Word字数功能,很原始);

    将各项搜索结果(标题+摘要)翻译(中译英,英译中,使用的是google的翻译功能),再次统计;

    分别统计总和和平均数。

    实验数据见下图:

    主动指出实验的几点问题:

    关键词的选择是否具有代表性呢?样本为一,所以并无普遍性。

    翻译本身的问题。采用翻译之后再统计对比的方式是否合适?

    计数方式的问题。涉及到例如2007-6-18、”IT”这些无法翻印的内容时,不会计入中文字符,却会计入非中文单词(约等与英文单词)。这一定会产生误差。对此虽做出了一定的修正,但并不完全。

    专有名词(如人名,地名等)翻译产生的问题。California只需一个英文单词,却需要加利福尼亚五个中文字符,专有名词在搜索结果中所占的比例大小也会影响结果。

    总之,这个小实验并不精确,也不科学,只是一个小小的佐证。 想说明的问题呢,在第二三段已经指出了。

    再说一个有趣的小发现。出于好奇,用Google的网页翻译,翻译了它自己的搜索结果页面(仍以布什为关键词),中文译成英文。结果发现,译出的结果与原网页的各项结果并不完全对应,请看这个和 这个页面。当试图将页面文字拷贝至Word时,又发现拷贝的内容是中英文混合的,即每一项均是原文(中文)+英文(译文)。


(阅读次数:
上一篇:各种MySQL客户环境变量程序概述   下一篇:网络营销就是让你抓住市场的眼光
[收藏] [推荐] [评论(0条)] [返回顶部] [打印本页] [关闭窗口]  
用户名: 新注册) 密码: 匿名评论
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
 §最新评论
  热点文章
·如何建一个成功的个人博客
·总结几个国外空间的个人感受
·个人站长怎样建站及运作的
·垃圾站不垃圾:如何利用垃圾站赚
·建站必知:虚拟主机知识大全
·SNS网站的内容、结构和盈利模式
·新七大绝招提升网站的质量绝版!
·没几个IP网站就别做GOOGLE的广告
·网站和博客的运营分析
·网站运营推广与系统关系
·网站运营推广与系统正反馈
·草根站长需做的几件事
  相关文章
·网络营销就是让你抓住市场的眼光
·如何建一个成功的个人博客
·搜索营销变革 帮助个人网站推广
·网站和博客的运营分析
·浅析广告联盟与个人网站的盈利
·个人站长怎样建站及运作的
·就这一“点”,让网站“字字成金
·谈一下我的做站发财之路
·做站遇到了瓶颈 一个接一个的瓶
·网站昨天满三个月,感慨牢骚满怀
·建站必知:虚拟主机知识大全
·把搜索引擎来的用户留下

关于我们 | 本站声明 | 友情连接 | 诚邀加盟 | 网站地图
版权Power by DedeCms   技术支持QQ =>> 罗江游鱼   Jacking  后台登陆
Copyright @ 2007 公司地址:柳州市东环路268号 邮编:545006 电话:15920389818 桂ICP备07006725号