(本篇內容取自出國報告出書)
*INSTICC: Institute for Systems and Technologies of Information, Control and Communication
*KEOD: Knowledge Engineering and Ontology Development
*KDIR: Knowledge Discovery and Information Retrieval
*KMIS: Knowledge Management and Information Sharing
里斯本對城市規劃的影響
對都市計劃領域而言,里斯本是很值得尋訪的城市。里斯本於1755年11月1日發生芮氏規模約9的大地震,不僅摧毀地表約85%的建物,更奪去里斯本將近五分之一的人口,這場大地震雖然讓葡萄牙瞬間從海上強權殞落,卻在歐洲歷史上扮演了舉足輕重的角色。18世紀正是歐洲啟蒙運動逐漸興起的時代,思想家嘗試擺脫以神為核心的宗教信仰,開始對理性與科學展開追求,里斯本大地震的發生正好給了宗教信仰支持者與理性支持者一次辯論的機會,前者主張「天譴論」,認為這是不信神的後果,但理性支持者卻秉持就事論事解決問題的態度。當時的葡萄牙首相龐巴爾(Pombal)就是深受啟蒙運動影響的人物,欲以理性與科學重建里斯本,龐巴爾的當時說了一句話:「埋葬死者,確保生者。」簡單明瞭的幾個字描述了那個開始追求理性與知識的萌芽時代。
在龐巴爾的領導下,不僅在科學上出現了「地震學」,更在城市建設上出現許多影響至今的規劃手段。首先,徹底調查震災的傷亡與毀損情況,進一步做全盤式的城市空間規劃,將原本的貝薩皇宮區改為商業、住宅、和政府機關,道路以棋盤式畫設,並規定建築的風格、防震、公共設施(下水道、行人道、路燈),商業區內每條街的主要用途也有規劃,配置方式影響迄今。時至今日,城市空間與格局的規劃不僅是里斯本歷史中的重要一筆,更是里斯本市民的共同記憶,這樣的代表性在里斯本的書店與市政廳中可見一斑,書店中有大量有關里斯本城市發展的書籍,書內不乏城市規劃平面圖、建築設計圖、老舊照片…等,而里斯本市政廳更是把「里斯本衛星空拍圖」當作地飾印在一樓大廳的地板上,廳內幾處的牆面也有空拍圖的裝飾。總而言之,里斯本是值得都市計劃領域的人進一步瞭解與學習的城市。
隔行如隔山
「規劃知識本體」是林峰田教授研究室的主要研究主題之一,這是第一次參加KEOD這類偏重探討ontology技術與應用的研討會,與會人員大多是電機、資訊科學、資訊管理、資訊工程等背景的學者,亦有不少在資訊公司的業界人士。這次投稿研討會的論文篇名為「Place Name Ambiguities in Urban Planning Domain Ontology」,企圖把空間規劃領域知識本體的課題帶入知識本體的專業領域的討論中,我們提出了「地名歧異」的問題,認為這是空間規劃領域在建構知識本體時會遇到的基本定義問題之一,希望帶至研討會引發討論。
「地名」是一個很簡單的問題,但我們認為在空間規劃中地名隱藏了大量的知識。有關地名的研究跨及多個領域,在地理學或地名學中偏向討論地名的出現原因,例如根據地形、族群、產業等;在地理資訊系統(Geographic Information System, 簡稱GIS) 中,討論地名對應到實際空間中的範圍,也涉及「模糊邊界」的問題與解決方法;在地理資訊擷取(Geographic Information Retrieval, 簡稱GIR)中,探討如何從非結構資料(unstructured data)中擷取出帶有地理資訊的資料,包括地名、經緯度、方位、距離……等。
我們在回顧有關地名在不同領域的研究面向後,認為空間規劃領域中「地名」的知識使用可以有更廣義的範疇,因為除了本身的正名(例如被地名辭典收錄)外,空間規劃也反應了實際生活中地名是如何被大眾應用,尤其是「非正式」但卻「廣被使用」的地名。因此,本論文提出兩種地名,符合非正式地名卻廣被應用的特性,且兩者皆與空間的「分佈」有關,一種是有關空間事件的分佈,另種為有關社會性事件的分佈。
空間事件指對一種有特殊自然事件發生的地區地描述,例如「易淹水地區」,此種名詞在空間規劃領域中是專有名詞,在GIS中亦可用經緯度度表現,但從未被視作「地名」處理,因此不存在於地名知識本體中。社會事件指的是特殊社會特徵分布的地區,例如貧民窟,指城市中貧窮人聚集的地區,本論文是以「天龍國」為例,天龍國一詞已是台灣廣泛使用的專有名詞,起初它的出現是指「居民相當自我中心且對其他地區不聞不問」的地區,後來衍生為指地價、房價、物價皆高的地區,那麼天龍國究竟指哪裡呢?一般人將其與台北市劃上等號,但顯然不是全部的台北市都符合天龍國的特性;因此,本論文利用facebook的「打卡」資料庫找出民眾指稱的天龍國在哪裡,利用facebook的原因有二:(1) Facebook允許使用者對地方自由打卡與命名,不需要第三方驗證;(2) Facebook反應的是ㄧ般民眾對地名的使用方式,而不是專家。初步結果顯示,天龍國分布在台北市士林區、大安區、信義區以及新北市板橋區等地,此結果是用大數據分析的方法呈現一般民眾對天龍國的想像。
因此本論文調整了傳統對「地名」的定義,讓地名知識本體的內容更符合人類知識的使用,換言之,研究之目的是在常識層先把知識整合,讓更上層的知識本體在應用上更多元也更合理。在本研究中,為了在知識本體內納入更廣義的地名,提出新的place names class structure,將地名分為「一般地名(normal place)」與「分布區域(distribution area)」,「分布區域」下層再分為「社會事件分布區域(social event distribution area)」和「空間事件分布區域(spatial event distribution area)」;另外,也提出一套建構知識本體的半自動學習架構,利用網路上的空間資料庫與文件資料庫來辨識具有意義的地名。
我們在回顧有關地名在不同領域的研究面向後,認為空間規劃領域中「地名」的知識使用可以有更廣義的範疇,因為除了本身的正名(例如被地名辭典收錄)外,空間規劃也反應了實際生活中地名是如何被大眾應用,尤其是「非正式」但卻「廣被使用」的地名。因此,本論文提出兩種地名,符合非正式地名卻廣被應用的特性,且兩者皆與空間的「分佈」有關,一種是有關空間事件的分佈,另種為有關社會性事件的分佈。
空間事件指對一種有特殊自然事件發生的地區地描述,例如「易淹水地區」,此種名詞在空間規劃領域中是專有名詞,在GIS中亦可用經緯度度表現,但從未被視作「地名」處理,因此不存在於地名知識本體中。社會事件指的是特殊社會特徵分布的地區,例如貧民窟,指城市中貧窮人聚集的地區,本論文是以「天龍國」為例,天龍國一詞已是台灣廣泛使用的專有名詞,起初它的出現是指「居民相當自我中心且對其他地區不聞不問」的地區,後來衍生為指地價、房價、物價皆高的地區,那麼天龍國究竟指哪裡呢?一般人將其與台北市劃上等號,但顯然不是全部的台北市都符合天龍國的特性;因此,本論文利用facebook的「打卡」資料庫找出民眾指稱的天龍國在哪裡,利用facebook的原因有二:(1) Facebook允許使用者對地方自由打卡與命名,不需要第三方驗證;(2) Facebook反應的是ㄧ般民眾對地名的使用方式,而不是專家。初步結果顯示,天龍國分布在台北市士林區、大安區、信義區以及新北市板橋區等地,此結果是用大數據分析的方法呈現一般民眾對天龍國的想像。
因此本論文調整了傳統對「地名」的定義,讓地名知識本體的內容更符合人類知識的使用,換言之,研究之目的是在常識層先把知識整合,讓更上層的知識本體在應用上更多元也更合理。在本研究中,為了在知識本體內納入更廣義的地名,提出新的place names class structure,將地名分為「一般地名(normal place)」與「分布區域(distribution area)」,「分布區域」下層再分為「社會事件分布區域(social event distribution area)」和「空間事件分布區域(spatial event distribution area)」;另外,也提出一套建構知識本體的半自動學習架構,利用網路上的空間資料庫與文件資料庫來辨識具有意義的地名。
簡報發表的過程中發現,即使知識本體的學者大多對資訊擷取與文字探勘等技術相當熟悉,但卻對我提出用Facebook當作擷取知識來源的想法感到新鮮;然而,在業界當紅的大數據分析中,利用社群網路資料的方法已不陌生,是否學術界與企業界對大數據的觀點與應用頗有差異?知識本體的學者偏重理論面,探討知識的本質、結構、關係等,進而探討資料的建構、儲存、鏈結、與呈現等;而業界比較重視應用面,追求大數據資料可以帶來的「效益」,因此重點在如何做出有效的「預測」,而非資料的本質或因果關係。我認為任何一種快速發展的技術背後,理論與應用都很重要,業界固然會對效益展開追逐,因此學界更需要在理論面多作鑽研,而非僅重視產學合作的效益。我也認為知識本體研究最有趣的地方,在於如果專業者欲利用知識本體的技術解決民眾的問題,則偶爾需要放下自己的知識高度,去瞭解民眾的認知為何,才能反應在知識本體的建構中,也才能更接近實務。
其他專業論文
IC3K研討會的論文發表分為多個主題,除了KEOD、KDIR、KMIS外,還有SSEO(Special Session on Enterprise Ontology)、SSTM(Special Session on Text Mining)等特殊技術或領域的論壇。我主要聆聽了KEOD的場次,也聽了幾場KDIR有關自然語言處理的論文發表。以下將聆聽的論文分為幾類:(一)Ontology的詞彙(實體)與關係的建構、(二)Ontology的合併與轉譯、(三)Ontology的開發與應用。
(一) Ontology的詞彙(實體)與關係的建構
Towards Vocabulary Development by Convention
Irl´an Grangel-Gonz´alez, Lavdim Halilaj, G¨okhan Coskun and S¨oren Auer
該論文希望仿照software development by convention的方式發展vocabulary development by convention,因為作者發現在軟體領域中其背存在類似公約的規範,使其開發出的軟體可以廣被使用,並可較方便地轉用至ontology工程中。在ontology研究中,詞彙是建構ontology最基本最關鍵的元素,因此該論文從ontology開發的角度來看,認為如果各領域中的詞彙發展也是仿照軟體發展規範的方式,將有助於未來將領域知識與ontology的整合工作。然而,對詞彙發展制定規範會比軟體發展需要更廣的共識與接受度,在實務上會面臨很大障礙,因此該論文先針對一些流行詞彙庫做試探,分析其潛在的成長準則與慣例,以及探討規範的障礙。
Identifying Pairs of Terms with Strong Semantic Connections in a Textbook Index
James Geller, Shmuel T. Klein, and Yuriy Polyakov
Ontology中的「關係」建構一直是ontology developers的挑戰之一,最傳統的做法莫過於請領域專家判斷,既勞力密集也易出錯,但是自動化方法又受限於電腦理解自然語言的能力。因此,該論文提出一個介於中間的方法,它使用教科書的索引目錄(index)作為domain ontology的領域概念(domain concepts)來源,並將任兩概念視作一「建議的語意關係」,一方面索引目錄本身已是專家認可的詞彙關係,另一方面索引目錄沒有自然語言文法等歧異問題。該研究以兩本有關網路安全領域的教科書為例,首先用其中一本教科書的索引作為領域概念以及建議語意關係,建構初步的domain ontology,然後再使用兩本書的內文自動學習。
Leveraging Entity Linking to Enhance Entity Recognition in Microblogs
Pikakshi Manchanda, Elisabetta Fersini and Matteo Palmonari
Named Entity Recognition(NER)是資訊擷取(Information extraction)中的一項技術,旨在辨識以文字表述的實體,並依已制定的分類標準予以分類。NER也是自然語言處理技術很重要的一部分,因為它要處理諸多「歧異」的命名問題。該論文以社群網路與部落格為主要研究對象,在twitter等類型的部落格上文字的內容相當個人化與情緒化,因此文字表述的歧異問題更嚴重,但相反的,因為文字表達相當簡短,讓實體的「共現性」更能反應出彼此的關係,藉此該研究從網路學習中建置處理命名實體歧異度的知識庫(knowledge base),提升系統對命名實體的辨識能力。
Towards Ontology Exploration based on Path Structure Richness
Ondrej Zamazai
這是一篇position paper的發表。知識本體探勘(ontology exploration)是指建構ontology的概念,該論文試圖提出一種方法以建構擁有豐富路徑(最短路徑)的結構的ontology,研究團隊認為全域性(近似general ontology)和地域性(近似domain ontology)的路徑豐富特性不太相同,傳統方法只從地域豐富性訓練學習(training & learning),而該方法則將全域豐富度的特性納入ontology exploration的學習對象。
Domain-Specific Relation Extraction – Using Distant Supervision Machine Learning
Abduladem Aljamel, Taha Osman and Giovanni Acampora
Ontology除了界定概念外,概念間的關係也是重要部分,該論文旨在開發一套可自動學習的「關係」擷取方法,換言之,研發一種可以自動計算概念間「距離」的方法,概念可以是兩個詞彙,也可以用在比較兩個domain ontology。該研究將自然語言分析中計算詞彙距離的方法應用在domain ontology的距離計算,任二詞彙的距離關係可從兩者在同一句子中的共現頻率以及共現時的實際距離(相隔幾個字)來估算,而在兩個domain ontology的距離估算中,分別從領域的關鍵概念的距離(domain key concepts and interrelations)及與利益團體的相關性(correlation to the benefit groups)來計算。
Optimizing Dependency Parsing Throughput
Albert Weichselbraun and Norman S¨usstrunk
在自然語言處理與資訊擷取中,依存解析法(dependency parsing)是指從實體(名詞)在單一句子中的排列方法來判斷實體間的關係,藉此擷取該句想傳達的資訊,依存解析法已被證實是比較有效的關係或資訊擷取方法。該研究目的是優化依存解析法的分析產量,方法包含兩部分的優化研究,其一把多組依存句型特徵組成複雜的依存句型模板,以此複合型模板作句型解析的基礎;其二,改善解析方法的限制條件。研究成果比常用的MDParser方法增加了四倍的產量。
(二) Ontology的合併與轉譯
Exploiting Visual Similarities for Ontology Alignment
Charalampos Doulaverakis, Stefanos Vrochidis and Ioannis Kompatsiaris
由於近年很多研究會針對其需求開發ontology,導致unreusable是目前ontology領域最普遍的問題,Ontology alignment是一種處理此問題的概念,指將兩個欲描述同一領域的domain ontology合併,合併不僅要處理ontology元素的一致性(corresponding),也要處理語意上的相似性(semantic equivalence)。過去研究常用字串比對、詞彙比對、語意比對等方法,但該論文利用網路龐大的圖庫,採用「視覺特徵」比對的方法決定相似性,例如蒐集有關「track」的圖片,根據圖片特徵分析加以分門別類,便可發現至少兩群特徵差異很大的概念,一組是指火車鐵軌,另組是指操場跑道。在語意相似性判斷上,例如發現「ship」和「boat」的圖片族群中有高度相似的群體,判斷此兩字在ontology中的相近程度。此方法的優點是,當今網路資源有大量附有描述的影像,可以將以描述影像為主的ontology(例如ImageNet)與描述語意為主的ontology(例如WordNet)整合分析,發展更完整的知識結構。
Visual Syntax of UML Class and Package Diagram Constructs as an Ontology
Anitta Thomas, Aurona J. Gerber, and Alta van der Merwe
UML裡的圖(diagram)是一種表達抽象與具體概念的可視化語言(或稱圖形語言),其中抽象部分是由具體概念以共通的標準語法來描述,UML便是一種用圖的方式來表達模組概念的標準語法。該篇論文的研究動機有二:其一,UML缺少一個正式的圖形語法規範,其二,ontology則是沒有圖形語法規範。因此該研究目的是用UML的class diagram和package diagram的圖形語法作為開發ontology的文法規範的基礎,並以OWL表示,然後再用ontology的推理功能來驗證這套圖形語法規範。主要的研究內容首先須研發將UML元件和關係轉譯成ontology(OWL)的方法,以及如何推理運算,包括class equivalence、class subsumption、class disjointness、class satisfiability、instance checking等。
Knowledge-based Engineering of Automation System using Ontologies and Engineering Data
Matthias Glawe, Christopher Tebbe, Alexander Fay and Karl-Heinz Niemann
該論文著眼於工程領域的ontology設計,在工程領域中,大部分的資料已是結構化與階層化的,而且為了使資料具有可交換性(exchangeable)與可再利用性(reusable),會設定標準格式或規範。然而,本論文認為即便工程領域的知識已經結構化,但卻沒有被嘗試用ontology的方式表達,因此提出一個「橋梁」概念,有效將工程性質資料轉換為以OWL表示的ontology,希望此方法可以應用於各種工程領域的ontology轉換。
(三) Ontology的開發與應用
A Conceptual Model of the Research Methodology Domain
Colin Pilkington and Laurette Pretorius
該研究旨在建構電腦科學的研究方法(research methodology domain)的domain ontology,目的是使研究中的創新與知識可以分享,並應用於教育學生如何做研究。Ontology的元件主要參據UML的概念模組(conceptual model),每個研究案是由哲學觀、研究設計、研究方法等基本部分構成,而ontology的驗證也是重要的步驟,該如何驗證?該研究是由一群以資深學者組成的研究團體負責驗證,但也重視其他參與者、中介者的存在,以及「共識形成」的重要性,該研就點出愈完整的驗證可以催使research methodology ontology更精煉,更適合應用於教育與學術探討。
Ontology in the Rail Domain
Christopher Morris, John Easton, and Clive Roberts
這是一篇position paper,論文的發表者來自英國伯明罕大學,近期接下伯明罕地區鐵路公司建構鐵路的核心知識本體(railway core ontology)的計畫,ontology的目的除了提升鐵導管理效率外,也希望能有助鐵路相關部分的資料整合,並且也要有助於消費者及外部廠商,讓鐵路系統的資料與資訊具有更高的商業價值。
A View on Advanced Standby Control in Industry from a Knowledge Engineering Perspective
Andreas W. Mueller and Joern Peschke
該論文針對工業廠房的供電系統提出一套具有智慧的控管系統,該系統先瞭解廠房內各種情況所需的用電方式,以此建構ontology,使用上可以宏觀瞭解整體工廠的運作,並針對不同情形採用不同的配電措施,有控管、儲備、省電等能力。
Open Data for Improving Youth Policies
Domenico Beneventano, Sonia Bergamaschi, Luca Gagliardelli and Laura Po
在資料應回饋於全民的價值觀下,各國政府都積極在「政府開放資料(Open Government Data)」上展開行動,在此之中,公家機關是公開資料的產製者,亦是消費者;該論文的研究動機認為目前大多開放資料只是公家機關把資料釋放出來,卻沒有有意義、有效率、有用的資訊傳播;因此,該論文認為產製資料的機關在釋出資料之前,應當先與其他已開放資料整合分析,擷取重要的資訊後,才作為「開放資料」釋放。該論文以義大利Emilia Romagna地區青少年政策為研究主題,從不同的開放資料庫(例如:人口、教育、職業)及私有資料庫中找出與青年政策相關的資訊,再使用MOMIS資料技術(系統)予以整合,最後將結果以D2R系統建成鏈結開放資料庫(Linked Open Data)再公開,D2R可提供資訊探索與查詢的功能。該研究認為此形式之政府開放資料遠比過去只是把資料放上雲端的作法更具效益性,也是資料產製者對自己的資料負責的一種行動。
Opinion Extraction from Editorial Articles based on Context Information
Yoshimi Suzuki and Fumiyo Fukumoto
這篇論文是日本學者提出的,受到現場不少學者的關注。觀點擷取(opinion extraction)是聚焦處理後的資訊擷取(information extraction),在眾多資訊中抓到幾組明顯的概念拼湊成一個「觀點」,這種技術常用在部落格的情感分析、新聞的重點擷取…等。該研究是針對日文的觀點擷取,其最重要的貢獻是提出「脈絡資訊(context information)」的方法,利用單一句子中每個詞彙的「位置」比對關係的特徵,藉以組構詞彙之間的關係;另外,該論文發現觀點本身是帶有作者的強烈程度,可分為四類:希望(hope)、建議(suggestion)、推測(speculation)、以及斷言(assertion),亦可以從脈絡中測得。
An Approach for Semantic Search over Lithuanian News Websites Corpus
Tomas Vileiniškis, Algirdas Šukys and Rita Butkiene
以語意為基礎的資料檢索(information retrieval)是一發展已久的技術,但目前仍主要在英文及一些廣泛使用的語言上,該論文的目的是開發一套針對立陶宛語言文件的檢索方法,並建構其背後的ontology語意網。該研究專注在立陶宛的自然語言處理上,特別針對「檢索問句」的文法分析。
研討會心得
過去三年我們已對建構空間規劃知識本體有諸多研究,礙於專業領域的關係在技術面上非常匱乏,卻又常在尋求技術合作的同時發現更多障礙,這些障礙來自於空間規劃領域與資訊領域在面對的問題性質與解決問題的思維模式上的差異。研討會期間,2015年11月14日那晚在巴黎發生130人罹難的恐怖攻擊事件,那天一早看到新聞畫面,即使聽不懂葡萄牙文也知道是個大事,隨後也在FB上寫下「Pray for Paris」並有感而發。
在動盪時代下想著海明威所謂「迷惘一代」。無論我們愈來愈描述不了迷惘,或是愈來愈指的出迷惘,我們似乎都是愈來愈迷惘。轉過頭,看看眼前這很資工的研討會中,發現幾乎所有論文的背後有個假設—把問題系統化與模式化是「最有效」的,因此系統(system)和模組(model)的概念彷彿無庸置疑地存在;我們無法挑戰:「把問題系統化就可以解決問題嗎?」因為這不是這領域的懷疑範疇,唯一觸及懷疑邊界的是某位論文發表者在其簡報中開玩笑說:「Be fair to your program, don't ask your program to find agreement if humans don't give agreement themselves.」然而,對於貼進人類生活的空間規劃領域,很多根本性的問題非常需要被提出,最簡單的問句卻可能有很複雜的答案。
我沒有厭倦任何一種專業,無論只求答案的工程或找不到答案的規劃,包容與理解是我們能做的,但不能預期必然會有報酬。想想戰爭中,殘忍的不見的該死,包容的也不見得不會被犧牲。我們正在經歷的是什麼?有那麼嚴重嗎?或其實更嚴重?
葡萄牙系列:
葡萄牙(一):初識里斯本
葡萄牙(二):KEOD研討會
葡萄牙(三):里斯本舊城(未完)
葡萄牙(四):貝倫(未完)
葡萄牙(五):海之始辛特拉(未完)
No comments:
Post a Comment