大连总结
这次会议的全称叫做全国第九届计算语言学学术研讨会,地点在美丽的海滨城市大连,而且时间也选择的非常的好,8月初的季节,刚好是很凉爽的季节,尤其和北京相比较。我想这也是会议选择大连的一个原因吧。 此行是我和刘知远两个人,按道理应该是直接出大连站就应该有会务组的车接送,可惜这回十分的不巧,负责接送的车先我们一步走了。本身对大连就不是很熟悉,加上临客列车的劳累,我们就直接打车去了宾馆。一路上也欣赏了下大连的风光,第一感觉就是还比较干净,沿途的花花草草、树木之类的都比较多,视野也开阔,不像北京,到处都是高楼大厦,一栋接一栋的感觉。由于大连是山城,在市区里随处都能看见青山,还有海风,真可谓是有山有水,风景宜人呀。
当天的晚上我们就坐公交车自助游了一把,主要是去海边看了看,顺便也能瞅瞅大连的夜景,果然没有让我们失望,海风,海浪,沙滩,游人,如果是第一次看见大海,那这种感觉会更强烈,还有不少人在沙滩边捡海带,我也是第一次知道海带就是这样来的。摩天轮上看大连的夜景也很不错,星星点点,没有太多的高楼,依稀还能看见大山的样子,感觉很不错。
第二天一大早就开始三天的会议行程了,开幕式上看见了很多牛人和老大们,董振东老师、黄昌宁老师、曹右琦老师等等,上次在沈阳的学生计算语言学会议上就见过他们,这次更加深了印象,老师们都挺平易近人的,后来在旅顺玩的时候还有幸和他们照了几张相:) 大会有四个特邀的报告:半结构化的基于实例的机器翻译,这个基本就没怎么闹明白,之前也没有了解相关的知识,只是感觉大意就是在传统的基于实例的机器翻译的方法上提出了一种半结构化的思想。第二个报告蛮有意思的,UGC产品评论信息的挖掘,这个方向很有应用的前景,大意就是说商家通过检测几个比较流行的网站上,观察用户对他们产品的评论,从中挖掘出有用的信息,以此来指导他们对产品进行改进等,其中举了不少的例子,感觉这个和情感分析挺相关的,其实主要还是挖掘到对产品的负面评价进行改进,具体的技术细节报告人没有特别详细的给出,只是对这个项目的应用背景做了比较多的分析。第三个是基于结构化句法信息的自然语言处理技术研究,还有一个是关于自动文摘方面的,这两个都没有太多的背景知识,所以比较遗憾。
接下来就是按照会议组织的session进行分组报告,我当时听的是中文分词相关的报告,感觉大家现在做的还是比较基础而且很细节的工作,涉及到的都是比较多的语言学的知识,所以基本也没有听懂,有意思的是不少人都提到了猪肉算不算词的这个问题,看样子分词确实还有不少细节的问题亟待解决。后半段的session着重听了几个和自己相关的,一个是中科院他们开发的一个信息检索的平台,这个在去年学生计算语言学会议的讲习班就出现了,感觉也只是炒了炒冷饭,没有太多的新意。后来还有马少平老师介绍的他们组相关的工作,都是他们组参加TREC比赛的想法和结论,我和刘知远就在底下说其实我们组也完全有实力参加TREC的比赛,只要肯做,肯定是会有收获的,比如说这次我们数据挖掘课,参加了KDDCUP2007的比赛,也就是我们本科的三个同学做的,拿了第六。有机会我们还真想参加一次TREC,这样人生也算是完整了,呵呵。
当天的晚上我们听了EI的一个讲座,介绍了不少EI收录相关的知识,中文信息学报也在向EI进军,希望能有好消息。最主要的是介绍人是EI总部的,很有经验,向我们介绍了如何写英文摘要的相关工作,因为EI收录的只是论文的题目、英文摘要信息,并不是全文收录的,同行能看到的也只有摘要,所以摘要写的好坏就显得尤为重要。之后,黄昌宁老师他们组织了一个中文分词评测的会议,主要讨论了评测的标准吧,估计和Sighan比赛有关
系,不过我们都不怎么了解相关知识。
第二天的报告感觉和我的研究方向相关一些,主要是一些机器学习的方法,例如SVM之类的,说实话,我自己感觉这方面的研究已经做的差不多了,所以当时很希望了解到他们做了哪些不同的工作,不过很可惜的是,发现有创新的东西不是很多,基本都是提出了自己定义的一些特征,在特定的数据集上跑结果,然后把实验结果罗列一番,我自己觉得这样的工作不能出好的成果,必须要有自己和别人不一样的地方,不过他们的工作也是属于比较细致的,也值得我们借鉴和学习。我和刘知远的报告都是在第二天的上午,开始的时候还有些许的紧张,毕竟没有在这么多人面前讲过自己的工作,不过我属于发挥型的选手,一上台,一开口反而不紧张了,慢条斯理的介绍完,不过就是在讲ppt的时候眼睛一直盯着电脑屏幕,没有很好的和听众交流。我自己觉得听众的反响还不错,大家都觉得这个工作挺有意思的,提的也是一些比较容易回答的问题,总之,感觉良好,呵呵。
下午会议组织大连市内游,又在白天感受到了这座海滨城市的美景,尤其是在滨海路上,汽车绕着山路,脚底下就是大海,还有星星点点的小岛,那天天气也很好,有一些雾,更加增加了诗情画意的感觉。当时都很有在大连定居的冲动。 第三天的报告我们挑的也是和机器学习相关的报告听,发现有些不错的工作,例如基于链接分析的重要blog信息源发现等。其中我还特别注意了两篇和文本分类相关的文章,一篇是面向文本分类的基于最小冗余选择的特征选取,这篇文章我大概瞅了一眼,发现它的整个的思想和之前我们申请863项目做调研时我看到的一篇ACL的论文很相似,但是当时也没好意思问文章的作者这是怎么回事,呵呵。大概别人是受了一些启发吧,在中文文本上做的实验。还有一篇是基于错误预测的文本分类方法,这个文章的思想也很简单,在准确率和效率上做了一个折中,先用比较简单,但是快速的分类方法跑结果,例如贝叶斯分类器,如果预测概率大于一个阈值,那么就直接相信这个简单分类器的结果,否则再用复杂的但是准确率高的分类器,说实话,这个思想我在其他的论文里面确实也看过,而且我觉得他这个实验做的相当不充分,结论里面说提高了效率,但是没有给出具体的实验数据。最后还有两个关于维吾尔族语言的论文,这个就听不太明白了,呵呵。
总而言之,这次会议的收获挺大的,但是由于一些原因,太过于专业的一些报告没有搞的特别清楚。对大连这个城市有了第一次的亲密接触,也喜欢上了这座城市,可惜的是这次去没有吃到什么海鲜,只能有机会再说了。
因篇幅问题不能全部显示,请点此查看更多更全内容