在线影院 应付不良网罗文化的时刻之一——网罗信息抽取时刻
发布日期:2024-09-04 19:03 点击次数:84
在线影院
郭岩,丁国栋,程学旗 (中国科学院辩论时刻征询所,信息智能与信息安全中心)
1 小序 2008年1月17日,中国互联网罗信息中心(CNNIC)发布了《第21次中国互联网罗发展情状统计敷陈》[1],敷陈裸露: (1) 戒指2007年12月,网民数已增至2.1亿东谈主。中国网民数增长连忙,比2007年6月加多4800万东谈主,2007年一年则加多了7300万东谈主,年增长率达到53.3%。,在昔时一年中平均每天加多网民20万东谈主。 (2) 现在中国的网民东谈主数略低于好意思国的2.15亿 ,位于寰球第二位。现在中国网站数目已达150万个,比前年同期增长了66万个,增长率达到78.4%。博客/个东谈主空间等宽阔网罗应用需求、域名数目增长的拉动及创建网站操作的肤浅化等要素作用在沿途,共同使得网站数目猛增。 (3) 现在中国网页数为84.7亿个,年增长率达到89.4%,网上信息资源的增长速率相配迅猛。这些网页中,动静态的比例为0.92:1,动态网页的比重在逐年增高。 (4) 现在网民平均上网时长是16.2小时/周,互联网仍是在网民活命中占据一定的地位。 从以上内容可见,网罗作为东谈主们取得信息的主要渠谈,已成为社会活命的一部分。网罗作为一种新的传媒,与报纸、无线播送和电视等传统的媒体比拟,具有灵通性,不笃定性,交互性,超时空性以及信息量的迢遥性等特色。网罗不仅改革了东谈主们的责任方式和活命方式,并且粗暴地冲击着传统的想想不雅念和想维方式。网罗在传播当代好意思丽的同期,也附带了各式“灰色文化”,例如色情、暴力等文化。这些不良网罗文化严重污辱着网罗环境,尤其对生理日渐熟识、而神志并未熟识的青少年形成了极大的危害。网罗的淫秽站点斗量车载,成为导致青少年性违规加多的一大诱因,亦然导致暴力违规的一大根源。[2]在互联网的信息中,有近70%的信息有淫秽的内容。56%的东谈主以为,平庸文化中的色情内容是导致青少年暴力的一大诱因。网罗暴力文化的传播,对青少年的活动产生误导,从而导致校园暴力和有组织违规的加多。在互联网上,宣传暴力的笔墨和图片遍地可见。青少年的效法材干很强,加上暴力文化的影响,使青少年把暴力当作理所虽然的事情,把违规当作一种游戏。 现时,不良网罗文化问题仍是引起了列国的可爱,加强对该问题的打听和惩处是势在必行。打击这些网罗灰色文化不仅需要制定关连的法律律例,还应该诈欺科技责任者的明智忽闪,匡助阻击或者是扼制这些灰色文化的传播泛滥。 互联网最基础的功能即提供信息。[1]现在互联网上的信息已是海量,搜索引擎则是网民在汪洋中搜寻信息的用具,是互联网上不可或缺的用具和基础应用之一。现在2.1亿网民中使用搜索引擎的比例是72.4%,即已有1.52亿东谈主从搜索引擎获益,半年净加多3086万东谈主。因此,为了灵验的遏抑网罗不良文化,对于搜索引擎职业商来说,需要接受各式灵验措施严格封堵过滤网罗上的不良内容。 旨趣上,搜索引擎时刻主要波及网罗搜索时刻、文挡分类时刻和网罗信息抽取时刻。其中,网罗信息抽取时刻是将网页中的非结构化数据或半结构化数据按照一定的需求抽取成结构化数据。网罗信息抽取废除的质地将径直影响到封堵过滤网罗不良内容的效劳。因此,网罗信息抽取时刻是应付不良网罗文化的要道时刻之一。本文将针对网罗信息抽取时刻作念摘录性先容。
2 网罗信息抽取时刻详细 2.1网罗信息抽取的主要内容 网罗信息抽取属于网罗内容挖掘(Web content mining)征询的一部分。[3]如图1所示,主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integreation)和不雅点挖掘(Opinion mining)等。
图1网罗信息抽取的主要内容
结构化数据抽取(Structured Data Extraction)的方向是从Web页面中抽取结构化数据。这些结构化数据经常存储在后台数据库中,由网页按一定款式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎废除页面等。 信息集成(Information integration)是针对结构化数据而言的。其方向是将从不同网站中抽取出的数据息争化后集成入库。其要道问题是如何从不同网站的数据表中识别出敬爱调换的数据并息争存储。 不雅点挖掘(Opinion mining)是针对网页中的纯文本而言的。其方向是从网页中抽取出带有主不雅倾向的信息。 大多数文献中提到的网罗信息抽取经常特指结构化数据抽取。 2.2 网罗数据抽取用具简介 2.2.1 用具的分类 传统的网罗数据抽取是针对抽取对象手工编写一段挑升的抽取门径,这个门径称为包装器(wrapper)。连年来,越来越多的网罗数据抽取用具被开发出来,替代了传统的手工编写包装器的方法。现在的网罗数据抽取用具可分为以下几大类(执行上,一个用具可能会包摄于其中几许类)[4]: 开发包装器的专用谈话(Languages for Wrapper Development):用户可用这些专用谈话便捷地编写包装器。例如Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。 以HTML为中间件的用具(HTML-aware Tools):这些用具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前,这些用具先把文档诊疗成标签树;再证据标签树自动或半自动地抽取数据。代表用具有W4F,XWRAP,RoadRunner,MDR。 基于NLP(Natural language processing)的用具(NLP-based Tools):这些用具平素诈欺filtering、part-of-speech tagging、lexical semantic tagging等NLP时刻配置短语和句子元素之间的关系,推导出抽取限定。这些用具比较得当于抽取那些包含合乎文法的页面。代表用具有RAPIER,SRV,WHISK。 包装器的归纳用具(Wrapper Induction Tools):包装器的归纳用具从一组检修样例中归纳出基于分隔符的抽取限定。这些用具和基于NLP的用具之间最大的区分在于:这些用具不依赖于谈话不断,而是依赖于数据的款式化特征。这个特色决定了这些用具比基于NLP的用具更得当于抽取HTML文档。代表用具有:WIEN,SoftMealy,STALKER。 基于模子的用具(Modeling-based Tools):这些用具让用户通过图形界面,配置文档中其感兴味的对象的结构模子,“教”用具学会如何识别文档中的对象,从而抽取出对象。代表用具有:NoDoSE,DEByE。 基于实质的用具(Ontology-based Tools):这些用具率先需要行家参与,东谈主工配置某领域的学问库,然后用具基于学问库去作念抽取操作。要是学问库具有裕如的抒发材干,那么抽取操作不错作念到统统自动。并且由这些用具生成的包装器具有比较好的无邪性缓和应性。代表用具有:BYU,X-tract。 2.2.2 用具的定性评价 对一个抽取用具的定性评价可参考以下几个谋划[4]: 自动化进程:这是个相配伏击的谋划。它意味着在生成包装器的同期,需要用户参与的责任量。用专用谈话生成包装器的用具需要用户手工描摹要抽取的对象的界限,是以自动化进程较低。以HTML为中间件的用具经常能提供自动化进程较高的生成包装器的操作,但这种高度自动化的效劳需要配置在一个假定上:被抽取页面的HTML标签具有高度的一致性。而这个假定对于现实网罗中的大部分页面是不诞生的。基于NLP的用具、包装器的归纳用具、基于模子的用具齐不错称为半自动化用具,因为这些用具齐需要用户提供样例页面,从而生成包装器。BYU这么的基于实质的用具率先需要全东谈主工的配置学问库,但之后,只好实质有裕如的抒发材干,抽取操作就梗概作念到全自动。 是否复旧复杂结构对象的处理:网页中大多数的数据呈现出复杂的结构,例如多层嵌套(multiple nesting levels)结构,如图2所示。这就需要抽取用具梗概处理这些复杂的数据结构。
图 2 多层嵌套结构例如[3]
是否复旧页面的文天职析:网页的内容,基本可分红两类:一类是半结构化数据,如图3所示;一类是半结构化文本,如图4所示。用专用谈话生成包装器的用具、以HTML为中间件的用具、包装器的归纳用具、基于模子的用具经常依赖于识别出数据的界限,从而生成抽取限定,浆果儿全集是以它们更得当处理半结构化数据。基于NLP的用具更得当处理半结构化文本。BYU这么的基于实质的用具则两者齐可处理。
图 3 半结构化数据例如[4]
图 4 半结构化文本例如[4]
是否提供图形用户界面(GUI,Graphical User Interfaces):为了匡助用户更好地生成包装器,一些用具提供了图形用户界面。 是否复旧非HTML文档:一些网页并不是用HTML写的。因为基于NLP的用具在分析时统统不依赖于HTML标签,是以相配得当处理非HTML文档。包装器的归纳用具、基于模子的用具在分析时不单是依赖于HTML标签,是以也不错处理一部分非HTML文档。以HTML为中间件的用具在分析时,则统统依赖HTML标签,是以弗成处理非HTML文档。 无邪性(Resilience)缓和应性(Adaptiveness):因为网页的结构和抒发经常变化经常,是以评价包装器的一个伏击谋划便是无邪性,即当网页有部分改革时,包装器是否仍然灵验。另一个伏击谋划是顺应性,即一个针对某应用领域的某种Web源的包装器是否也能对归拢应用领域中的其他Web源灵验。 各类抽取用具的定性评价参见图5。
图5 各类抽取用具的评价图[4]
3 网罗信息抽取的主要方法 这里要点先容基于监督学习(supervised learning)的包装器的归纳(Wrapper induction)和基于非监督学习(unsupervised learning)的全自动抽取(Automatic extraction)。[5] 3.1 包装器的归纳 包装器的归纳是基于监督学习的方法。具体地讲,是诈欺机器学习生成抽取限定。主要方法如下: (1) 由用户在检修页面中标注要抽取的内容; (2) 系统从检修页面中学习出抽取限定; (3) 诈欺抽取限定从新页面中抽取出需要的内容。 征询东谈主员仍是研发出许多包装器归纳系统,例如WIEN[6],Softmealy[7],Stalker[8],BWI[9],WL[10]等。在这里,咱们以系统Stalker作为例子先容包装器的归纳方法。Fetch是系统Stalke的交易版块。 Stalker是一个分级包装器归纳系统。基于分级抽取的想想,它将复杂的抽取问题变成一系列肤浅的抽取子任务,不同级别的抽取相互颓靡。该系统相配得当抽取多层嵌套结构的数据记载。 Stalker在抽取过程中使用了内嵌目次树结构,即EC树(Embedded catalog tree)。EC树基于类型树(Type tree)。图6为一个网页片断,图7为图6对应的类型树,图8为图6对应的EC树。
图6 一个网页片断[5]
图7 图6对应的类型树[5]
图8 图6对应的EC树[5]
如图8所示,每个抽取项对应EC树中的一个节点,包装器将使用限定从该节点的父节点中将该项内容抽取出来。对每项要抽取的内容,需要两条限定: (1) 一条初始限定,用于检测抽取项的初始位置,即象征出抽取项对应节点的初始位置; (2) 一条废除限定,用于检测抽取项的废除位置,即象征出抽取项对应节点的废除位置。 以上限定不仅适用于叶子节点(对应数据项),还适用于列表节点。对于列表节点,使用列表迭代限定将列表分割成一个个单独的数据记载。抽取操作之前,经常把HTML代码切分红几许个标记(token)。标记的界说一般是谋划签、文本等,例如
即为一个标记。抽取过程经常以标记作为原子单元加以操作。抽取限定基于路标(landmark)的想想,每个路标是一个邻接的标记序列。用路标来定位一个抽取项的初始和废除位置。底下举个例子来简要评释抽取过程。图9为图6对应的HTML代码。
图9 图6对应的HTML代码[5]
咱们要抽取restaurant 的称呼“Good Noodles”,不错使用以下两条限定: R1: SkipTo() //初始限定 R2: SkipTo() //废除限定 R1告诉系统,要找到restaurant的初始路标(landmark),需要从页靠近应的HTML代码的第一个标记(token)初始,跳过总共标记,直到际遇标记。在这里,标记就称为一个路标(landmark)。不异的,R2告诉系统,要找到restaurant的废除路标,需要从页靠近应的HTML代码的第一个标记初始,跳过总共标记,直到际遇标记,标记也为一个路标(landmark)。 这里需要细心的是,限定可能不是独一的。例如,底下的限定R3、R4和限定R1的效劳是一样的。 R3: SkiptTo(Name _Punctuation_ _HtmlTag_) R4: SkiptTo(Name) SkipTo() R3暗意需要跳过总共标记,直到际遇词“Name”,且该词之后紧随着一个标点记号以及一个HTML标签(tag)。这里“Name _Punctuation_ _HtmlTag_”共同组成了一个路标。其中“_Punctuation_”和“_HtmlTag_”是通配符。 接下来咱们抽取图6中的列表,其父节点对应图9中代码的第2行至第5行。为了识别通盘列表,咱们使用如下限定:
R5: SkipTo()
R6: SkipTo(
)为了将列表分割成一个个单独的数据记载,咱们使用如下限定:
R7: SkipTo( )
R8: SkipTo(
) 系统在列表的父节点对应的代码中,从第一个标记初始搜索,直到际遇标记 ,意味着找到了第一个数据记载的肇端位置,然后接着搜索,直到再次际遇标记 ,意味着找到了第二个数据记载的肇端位置,…,直到代码废除。不异的,系统在列表的父节点对应的代码中,从终末一个标记初始搜索,直到际遇标记(),意味着找到了终末一个数据记载的废除位置,然后接着搜索,直到再次际遇标记(),意味着找到了倒数第二个数据记载的废除位置,…,直到代码初始。当一条数据记载的初始、废除位置被标出后,咱们就能抽取其中的数据了。以上总共限定只是为了展示抽取过程,是以看起来比较肤浅。执行环境中,由于网页设想的各类性,导致限定会比较复杂。 Stalker使用邻接消除的计策来学习抽取限定,即在检修过程中消除尽可能多的正例,而忽略总共反例。具体地讲,便是一朝一个正例高傲了一条限定,该正例就被剔出检修集,直到总共的正例被限定消除。 包装器的归纳需要在学习阶段,手工标引检修例子。为了保证学习的准确性,需要大齐的检修例子,因此标引责任卓绝费时重荷。不错使用协同测试(Co-testing)等方法擢升学习过程的自动化进程。 包装器的归纳还需要处理包装器的顾惜问题。具体地讲,便是如何经管如下难题: (1) 包装器的检测:当一个网站发生了变化,相应的包装器能否知谈这种变化? (2) 包装器的开拓:当网站的变化被正确检测到,怎样自动开拓包装器? 经管以上两个问题的方法之一便是学习出要抽取内容的特征模板,用这些模板监控抽取操作,实时判断抽取废除的正确与否。一朝发现错误,当页面只是是款式上的较小变化时,不错用模板来定位抽取项,并从腾达成包装器。经管好以上两个问题卓绝贫穷,因为经常需要坎坷文和语义信息来检测网站的变化,以及从新定位要抽取内容的位置。现在,包装器的顾惜是比较热点的征询点。 3.2 全自动抽取 基于监督学习的包装器归纳方法有以下两大不及: (1) 手工标引的高代价,使得该方法不得当应用于大范围网站的抽取。 (2) 包装器的顾惜也需要付出卓绝大的代价。网罗是个动态环境,处在不停的变化中。由于包装器归纳系统学习出的限定使用的是款式化标签,因此当一个网站改革其款式化模板时,现时的抽取限定就无效了。 针对以上不及,群众初始征询基于非监督学习的全自动抽取。杀青全自动抽取是可能的,这是因为一个网站中的数据记载,经常被数目很少的固定模板所承载着,因此通过挖掘肖似模式,是不错找到这些模板的。正则抒发式(Regular expression)常被用来款式模板。给定一个正则抒发式,不错用一个非笃定有限自动机(nondeterministic finite-state automaton)在网页对应的HTML代码(可当作一个字符串序列)中作匹配,抽取出数据记载。模板也可用字符串或树模式款式。 近来比较流行的全自动抽取方法有RoadRunner[11]、MDR[12]等。方法RoadRunner将多个HTML文献作比较,找出其相似特征和不同特征,基于这些特征生成包装器。参考文献[12],咱们在这里简要先容方法MDR(Mining Data Records in Web pages)的想路。 MDR的方向是从网页中抽取结构化数据记载,例如图10所示居品列表。
图10 结构化数据记载例如[12]
图11 图10对应的标签树[12]
方法MDR用标签树(DOM tree 或 tag tree)来款式模板。图10对应的标签树如图11所示(忽略了一些细节)。MDR的想路基于以下两个不雅察废除,以及串匹配算法: (1) 一组相似的结构化数据记载不错当作一个相似对象的集合,这些对象在页面中常被放在一派周边的区域中,该区域称为数据区域(data region),且承载每个对象的HTML标签是相似的。例如,图10中两条对于书的记载在网页中被甩掉在一派周边的区域中,且每条数据记载齐被相似的HTML标签序列所承载着。要是把一个页面的HTML标签当作是一个字符串,那么就梗概使用字符串匹配算法来比较不同的子串,从而找出那些相似子串,这些相似子串很可能就承载了相似的对象(即数据记载)。 (2) 一个网页中的HMTL标签的内嵌结构很当然地组成一棵标签树。在一派特定区域中的一组相似的数据记载,在标签树中发达为共同领有一个父节点。例如,图11中每个短线方框代表了一笔记载。可见,每条数据记载由5个TR节点偏激子树所承载,且这5个TR节点偏激子树共同领有一个父节点TBODY。也便是说,每个数据记载齐被一些子树所承载着,对于一组相似的数据记载,承载它们的子树共同领有一个父节点。 以上不雅察废除在实验中得到了阐明。给定一个网页,MDR方法的抽取过程如下: 方法1:为数据页面配置HTML标签树; 方法2:基于标签树和字符串比较算法挖掘出页面中的数据区域。细心,这里并不是径直去挖掘数据记载,而是先挖掘出数据区域。例如,咱们先找出图11中节点TBODY下的通盘数据区域。 方法3:从每个数据区域中识别出数据记载。例如,在图11中,这个方法要找出TBODY下的数据区域中的数据记载1和数据记载2。 3.3 小结 基于监督学习的包装器的归纳有如下优点: (1) 因为用户在手工标引时,明确款式了其感兴味的抽取内容,是以抽取废除必定是用户所需要的。 (2) 因为用户在手工标引时,明确款式了从不同网站取得的数据的敬爱,是以抽取操作不需要推敲数据集成问题。 同期,在上节提到,包装器的归纳有以下两大不及: (1) 手工标引代价高,使得该方法不得当大范围网站的抽取。 (2) 网站的经常变化,使得包装器的顾惜需要付出卓绝大的代价。 基于非监督学习的自动抽取有如下优点: (1) 由于抽取过程是统统自动的,是以相配适用于大范围网站的抽取需求。 (2) 由于抽取过程是统统自动的,是以顾惜代价相配小。 同期,自动抽取有如下不及: (1) 由于莫得用户参与,是以系统并不知谈用户真确感兴味的是什么内容,导致抽取废除中可能会包含许多用户不需要的数据。对这点不及,不错用领域启发式信息或手工过滤的方法从抽取废除中剔除无关数据。 (2) 从多个网站中抽取出的数据废除需要通过集成操作,材干真确入库。 在抽取精度方面,平素以为包装器的归纳比自动抽取精准,但于今并莫得文献给出具体比较废除。在应用方面,包装器的归纳经常得当于要抽取的网站数目较少,且这些网站的模板数目较少的任务;自动抽取经常得当大范围的抽取任务,且这些任务不需要精准标引和数据集成。
亚洲BT4 论断 现时,不良网罗文化问题仍是引起了高度可爱。为了打击网罗灰色文化,不仅需要制定关连的法律律例,还应该充分诈欺高技术技能。搜索引擎是互联网上不可或缺的用具和基础应用之一。对于搜索引擎职业商来说,需要接受各式灵验措施严格封堵过滤网罗上的不良内容,从而灵验的遏抑网罗不良文化。本文针对搜索引擎时刻中的网罗信息抽取时刻作念了摘录性先容。因为网罗信息抽取废除的质地,会径直影响到搜索引擎封堵过滤网罗不良内容的效劳,因此,征询网罗信息抽取时刻对于经管不良网罗文化问题短长常要道的。
参考文献 [1] 中国互联网罗信息中心 (CNNIC).中国互联网罗发展情状统计敷陈.2008.1.17. [2] 郭新建.警惕不良文化.郑州日报,2007.7.15. [3] B.Liu. ACM SIGKDD Inaugural Webcast: Web Content Mining, Nov 29, 2006. [4] A. Laender, B. Ribeiro-Neto, A. Silva, and J. Teixeira. A brief survey of web data extraction tools. ACM SIGMOD Record, 31(2):84–93, 2002. [5] B. Liu. Web Data Mining - Exploring Hyperlinks, Contents, and Usage Data. Springer, December, 2006. [6] N. Kushmerick, D. S. Weld, and R. B. Doorenbos. Wrapper induction for information extraction. In Proc. of the Int. Joint Conf. on Artificial Intelligence, 1997. [7] C. Hsu and M. Dung. Generating finite-state transducers for semi-structured data extraction from the web. Information Systems, 23(8):521–538, 1998. [8] I. Muslea, S. Minton, and C. Knoblock. A hierarchical approach to wrapper induction. In Proc. of the Third Int. Conf. on Autonomous Agents在线影院, 1999. [9] D., Freitag and N., Kushmerick. Boosted wrapper induction. In Proc. of the Conf. on Artificial Intelligence, 2000. [10] W. Cohen, M. Hurst, and L. Jensen. A flexible learning system for wrapping tables and lists in html documents. In Proc. of the 11th Int. World Wide Web Conf., 2002. [11] V. Crescenzi, G. Mecca, and P. Merialdo. Roadrunner: Towards automatic data extraction from large web sites. In Proc. of 27th Int. Conf. on Very Large Data Bases, 2001. [12] B. Liu, R. Grossman, and Y. Zhai. Mining data records from web pages. In Proc. of 14th ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining, 2003. [13] Y. Zhai and B. Liu. Web data extraction based on partial tree alignment. In Proc. of the 14th Int. World Wide Web Conf., 2005. [14] B. Liu and Y. Zhai. Net - a system for extracting web data from flat and nested data records. In Proc. of the 6th Int. Conf. on Web Information Systems Engineering, 2005.