近日,伟德bevictor中文版徐流暢副教授與薛星宇老師等人在地理信息領域頂級期刊《Geo-spatial Information Science》(中科院1區,IF=6)上發表題為“Beyond extraction accuracy: addressing the quality of geographical named entity through advanced recognition and correction models using a modified BERT framework”(超越提取精度:基于改進的 BERT 架構利用先進識别和校正模型以解決地理命名實體質量問題)的研究論文,成功獲取了高質量的地理命名實體數據,為擴展标準地址庫和後續地理命名實體研究提供價值。

在地理空間服務和應用領域,地址信息的準确性至關重要。傳統的數據收集方法不僅耗時且成本高昂,因此研究人員轉向志願地理信息(VGI)來提取地理命名實體(GNE)。然而,以往的研究主要集中在提高提取精确度上,往往忽略了GNE質量的重要性。
基于此,徐流暢老師與浙大地球科學學院課題組多位學者合作,通過構建地理命名實體語義模型(GNESM)和地理命名實體識别模型(GNERM),并進行增量預訓練和微調,成功地提高了識别精度至90.9%。此外,通過構建地理命名實體錯誤糾正模型(GNEECM),實現了96.6%的錯誤檢測和糾正準确率,顯著提高了GNE數據的質量。
該研究所提出的識别與糾錯方法在多個經典測試函數和實際工程設計問題中表現出色,與多種已有的優化算法進行比較,展示了其在複雜地理命名實體處理上的卓越性能。研究團隊通過多方面的實驗驗證了模型的有效性,并通過與社交媒體文本數據的結合,進一步拓寬了模型的應用範圍。這些高質量的GNE數據不僅可以用于擴充标準地址庫,還為後續的地理命名實體研究提供了有價值的參考。


伟德bevictor中文版為該論文第一單位,徐流暢副教授為第一作者,薛星宇老師為通訊作者。該研究成果得到了伟德bevictor中文版的支持,從場地、計算資源、網絡等方面為科研活動排憂解難,使研究得以順利進行。
論文地址:https://www.tandfonline.com/doi/full/10.1080/10095020.2024.2354229
徐流暢