以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  CSWS2007研讨会简要笔记  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=55627)


--  作者:zhaonix
--  发布时间:11/19/2007 10:25:00 PM

--  CSWS2007研讨会简要笔记
个人笔记,算是一个非官方的会议报道:) 现场主要用英文演讲,很多地方我听得不太明白,记得不一定全、准,欢迎大家补充、更正、讨论。

总的来说,前面的演讲部分大多是介绍、交流性质的,较多地谈到了已开发出的SW应用。 最后半小时的自由发言和讨论环节,为了保证讨论效果,我们这些学生观众被请出了现场,无缘得见了:(  研讨会议程见官网:http://research.ihost.com/csws/index.html(与最后实际稍有出入)。

01. Ivan Herman介绍了SWEO的应用状况。认为按照某种新技术应用周期,现在处在2.5%的人应用之后的第二个阶段:13%的人正在采用,形势相当喜人。w3c的SWEO工作组搜集了许多SW应用或RDF dataset,见Linking Open Data Project的主页,尤其是上面那个表示各个应用彼此之间联系的图。 提到一个观点(还是约50份的调查结果?):现在SW的应用主要集中在Data Integration。  在其中要在不同数据源之间建立联系时用owl:sameAs比较典型。  他这次的胶片在w3c主页上有,在http://www.w3.org/Talks/ 可以很方便地搜到。

02. APEX研究组把Semantic Search分为Data Extraction, Indexing & Searching, Query Interface & User Interaction 三层,每层上都开展了好几个项目的研究;现场对已实现的多个原型做了精彩的演示,给人印象非常深刻! 这些视频demo在APEX网站上能看到。 包括EachWikiQ2Semantic等。

03 清华KEG实验室目前在SW方面的研究有:
    1)Semantic Annotation;2)Ontology Matching;3)Semantic Indexing & Searching。
Applications有:
    1)ArnetMiner (一个搜索研究人员的系统,其中的数据主要来自DBLP);2)Event Based Intelligent News Mgmt;3)Semantic Based Service Integration

04 Srinivas博士介绍了IBM的SHER项目:一个在医疗领域的应用,如Semantic PubMed search,clinical Trials matching;提到用OWL推理可以做一些cleaning noisy data的工作。
    后面提到一个有意思的问题:在medical、government领域之外,ontology到底有多大用途?说在有些地方simple rules、在有些地方closed world reasoning  就might be sufficient了。

05 IBM CRL在SW方面的focus有:
    1)SW based modeling;
    2)SW based data mgmt;
前者toward to “Enterprise Model repository”,考虑了EMF model。   后者又有几个focus:A)RDF triple store; B)RDF access to RDB ;C)application等,出了一篇VLDB2007 best paper!!!相关的RDF store参加对比测试的结果是 the most efficient one. 提到一个理论问题:当RDF数据被分开存储时,需要考虑Graph partition 算法。

06 Chris的特邀演讲很通俗:“Ontologies and Folksonomies: False Friends”。回顾了Classification, ontology, folksonomy三者的历史,然后谈区别。但可惜因英文听力俺没太听太懂:(。 据whf同学讲,他理解Chris的意思是ontology适合表示那些在分类系统中位置非常明确的信息,而对于“Chinese Military History”这样的东西,是放在“Chinese History”下还是“Military History”下就不是很清晰,就不适合了。   我印象最深的一点是:Classification系统是很刻板的,但不同的人对于事物该如何分类往往会有分歧;于是另一种方法出现了: single set of key words(facets); any combination is legal; 从中发展出了folksonomy。

07 诸葛教授讲的比较抽象。与前面类似,他们看重classification,但也看重link。沿着前者,提出了Resource Space Model,就是用n个各表示一个属性的维度组成一个空间,在其中指定各个维度的选择条件进行检索(只是个人感受,理解不一定准);目前正在研究一套此空间上的理论如操作、范式、演算代数等。 提到:在一个有关敦煌艺术的系统中得到了(还是正在)应用,——颇像黄智生老师上次介绍的荷兰的e-Culture啊!呵呵。  沿着后者,提出了Semantic Link Network的概念。

08 瞿老师热情地展示了他们IWS研究组的一个重量级原型:Falcons——口号是把“知之为知之、不知Google知”的后半句在SW时代改成“不知Falcon知”!呵呵。系统已到web上抓取了很多RDF数据,在其中提供查询。将搜索和浏览结合。 例子中,输入一个关键词,在列出结果条目的同时会列出很多相关的Concept,提示用户可按其中一个来继续搜这个词。查询形式上有点像eCulture。  该系统可以在web上公开访问(http://iws.seu.edu.cn/services/falcons/)!

09 浙大的基于本体的中医数据集成系统在ISWC2006等地方给人印象颇深,前面Ivan在将SW现在的应用时还重点做了介绍。自己注意力不太集中了:(,记下的东西不多,有一个提法印象较深:(Semantic) Graph Mining 。另有他们的DartGrid、DartSearch系列。

10 人大杜小勇老师介绍了他们在建立经济学本体的过程中所使用的方法,有一个我觉得很像设计编译器的过程很有意思(如果我糟糕的听力没弄错的话): 用一个较小的本体onto1去标注文档,对标注结果进行学习,从中得到一个更大的本体onto2 ! 据说有一个portal for economic knowledge grid,搜了一下,觉得http://www.lib.ruc.edu.cn/rdsztsg/rdstjj.htm 这个最像,不知道是不是。

11 LEI Yuangui 博士介绍了英国Open University的情况后,谈了她在“evaluation of the quality of metadata in SW”上的研究。正好这个问题前面瞿老师等至少两人谈过是他们的SW研究中感受到的一个大问题。方法大意是分别用Domain Ontology, Domain Lexicon, data respository(?), SW, Web等来对付annotation中的inconsistence,,,inaccurate,等问题。 在被问到他们推出的“新科状元”Revju时,她说:可用于create communities,有点像facebook。

一点共性的东西:RDF形式的Wikipedia——主要是柏林自由大学的DBPedia——被多次提到、用到,,SWEO的图里面它处在一个核心的位置,瞿老师的Falcons中使用了,APEX的EachWiki则是直接去WikiPedia抓的。

张雷博士说会在尽量去征求演讲老师的意见后在研讨会官网上贴出各位的PPT。另:自己对绝大部分的演讲分别做了录音,等论坛FTP能连上时就上传。但限于发言的性质和英语问题,估计效果不好;只是Chris的声音大、瞿老师用中文讲,效果要稍好些。另外,自己座位离前排太远,效果不太好,大家凑合着听。转成MP3后已经把音量调得不能再大了,少量杂音是由于录音地点附近偶尔一些较大的响声被调音量软件“剪裁”后所致。好在基本还能听清。

最后,感谢IBM CRL和w3c中国办事处的辛苦操办!感谢与会的多位敬业、热情的老师带来的精彩演示和介绍!

[此贴子已经被作者于2007-11-20 13:29:53编辑过]

--  作者:cooperator
--  发布时间:11/19/2007 11:26:00 PM

--  
楼主辛苦了
--  作者:bzbc
--  发布时间:11/20/2007 9:29:00 AM

--  
辛苦了,谢谢
--  作者:funson
--  发布时间:11/20/2007 10:22:00 AM

--  
真是有心人啊!期待mp3!文件比较大吧?方便的话上传到一个网络硬盘上,让大家去下载!
--  作者:admin
--  发布时间:11/20/2007 10:59:00 AM

--  
daximen 在这里也作了一些会议记录
http://bbs.w3china.org/dispbbs.asp?boardID=2&replyID=118821&ID=55003&skin=1

--  作者:zhaonix
--  发布时间:11/20/2007 1:28:00 PM

--  
15个文件一共17M。
以下是引用funson在2007-11-20 10:22:00的发言:
真是有心人啊!期待mp3!文件比较大吧?方便的话上传到一个网络硬盘上,让大家去下载!


--  作者:daximen
--  发布时间:11/20/2007 9:54:00 PM

--  
lz记录的内容好全啊!
我还记得 Yuangui Lei 博士介绍的semantic browsing可以在http://powermagpie.open.ac.uk
找到。报告中她好像提到了一些OU提供的开放API(我还没仔细看,他们的项目和技术也很多。。。),同时提到了她们的watson 项目在OU开发的各种应用中起到了重要作用。



--  作者:zhaonix
--  发布时间:11/23/2007 9:04:00 AM

--  
录音已上传至论坛FTP,目录: /Upload/CSWS2007研讨会

--  作者:chan_stephen
--  发布时间:11/23/2007 9:14:00 PM

--  
不错,很不错,顶一个~!@
--  作者:twwwgauts
--  发布时间:11/24/2007 8:58:00 PM

--  
谢谢楼主的分享
--  作者:smileidiot
--  发布时间:11/29/2007 2:08:00 PM

--  
如何上传啊?貌似我权限只能一次1024k,可我收集到了CSWS 2007 slides每个都大于1024k啊。。。不会要我一个一个拆分文件吧。。。汗ing

谢谢达人相助啊。。。


--  作者:zhaonix
--  发布时间:11/29/2007 9:12:00 PM

--  
传到论坛FTP上去?
--  作者:admin
--  发布时间:11/29/2007 11:43:00 PM

--  
以下是引用smileidiot在2007-11-29 14:08:00的发言:
如何上传啊?貌似我权限只能一次1024k,可我收集到了CSWS 2007 slides每个都大于1024k啊。。。不会要我一个一个拆分文件吧。。。汗ing

谢谢达人相助啊。。。



多谢smileidiot收集了大家企盼已久的ppt。
可以用RAR分卷压缩,限定1024是因为,假如比较大的话,万一中途上传/下载出错,就前功尽弃了。

另外也可以传到FTP上,或者发邮件给我:-)


--  作者:wstone
--  发布时间:11/30/2007 11:32:00 AM

--  
DING 不出
--  作者:GIIWOO
--  发布时间:11/30/2007 4:39:00 PM

--  
Slide FTP上有了没?
--  作者:zhaonix
--  发布时间:12/13/2007 10:22:00 AM

--  
发现有一个地方我搞错了:

“05 IBM CRL在SW方面的focus”一段中,写到“出了一篇VLDB2007 best paper”。误会!事实上这个Best Paper不是CRL的人写的,他们只是在胶片中说在“Native vertical partitioning”方向上最近刚有人出了一篇VLDB 2007 best paper,《Scalable Semantic Web Data Management by Vertical Partitioning》,来自MIT。

特此更正。是我当时对胶片理解错了,抱歉!


--  作者:whfcarter
--  发布时间:12/27/2007 4:46:00 PM

--  
那个是MIT CSAIL实验室db组的人做的,方向是column-oriented database.这个现在是db中的热点,新的read-optimized应用,同时也为新的rdf store提出的方向和希望。
--  作者:zhaonix
--  发布时间:12/28/2007 9:30:00 AM

--  
"read-optimized", 领悟中…… 谢谢!


--  作者:whfcarter
--  发布时间:12/28/2007 2:09:00 PM

--  
其实read-optimized在DB和IR(Informantion Retrieval)方面都有不少研究,在DB方面在datawarehouse和OLAP的应用中都考虑read optimized,而对于IR更是如此,从一开始的inverted index(可以被看成一种特殊的column-oriented database,是根据每一个term对应的document是一个column有自己单独的compress algorithm),还有如google的bigtable等,有兴趣可以一起交流。
--  作者:ray0828
--  发布时间:12/28/2007 7:43:00 PM

--  
这个对确定研究方向有一定意义啊,跟着大牛们走,免得走歪了,:-)
--  作者:ICT_RemyChan
--  发布时间:1/15/2008 3:57:00 PM

--  
ok very well
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
203.125ms