主頁 >  其他 > LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 論文閱讀

LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 論文閱讀

2023-07-13 08:21:46 其他

LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 論文閱讀

KDD 2023 原文地址

Introduction

文本噪聲,如筆誤(Typos), 拼寫錯誤(Misspelling)和縮寫(abbreviations), 會影響基于 Transformer 的模型. 主要表現在兩個方面:

  1. Transformer 的架構中不使用字符資訊.
  2. 由噪聲引起的詞元分布偏移使得相同概念的詞元更加難以關聯.

先前解決噪聲問題的作業主要依賴于資料增強策略, 主要通過在訓練集中加入類似的 typos 和 misspelling 進行訓練.
資料增強確實使得模型在損壞(噪聲)樣本上表現出出更高的魯棒性.
雖然這種策略在一定程度上已被證明有效地緩解了詞元分布偏移的問題, 但所有這些方法仍然受到在 詞元化(tokenization)中字符資訊會丟失的限制.

Approach

1 在自注意機制中加入詞感知注意模塊(Lexical-aware Attention module, LEA). LEA 考慮了句子間的詞的字符關系, 文中認為這是提高句子相似性任務的關鍵, 特別是在存在 typos 的情況下.

Self-attention

定義 self-attention 的輸入為 \(X=\set{x_1, x_2, \dots, x_n}\), 輸出為 \(Z=\set{z_1, z_2, \dots, z_n}\), 輸出中的每個 token 的表示計算如下:

\[\begin{equation} z_i=\sum_{j=i}^na_{ij}\left(x_j\cdot W^V\right), \quad z_i\in \mathbb R^{d_h}. \end{equation} \]

其中的注意力權重 \(a_{ij}\) 計算如下:

\[\begin{equation} a_{ij}=\frac{\text{exp}(e_{ij})}{\sum_{k=1}^{n}\text{exp}(e_{ik})}, \end{equation} \]

其中

\[\begin{equation} e_{ij}=\frac{(x_iW^Q)(x_jW^K)}{\sqrt{d_h}}. \end{equation} \]

Lexical attention bias

對于語意文本相似性(textual similarity), 將兩個句子拼接:

\[\begin{equation} X_c=X_l|X_r \end{equation} \]

主要做法是參考了相對位置嵌入(relative position embeddings)的做法, 對 self-attention 中的 \(e_{ij}\) 進行如下修改:

\[\begin{equation} \tilde e_{ij}=e_{ij}+\alpha l_{ij} W^L, \end{equation} \]

其中第二項就是詞偏向(lexical bias). \(W^L\in \mathbb R^{d^L\times 1}\) 是可訓練引數, \(l\in \mathbb R^{1\times d^L}\) 是成對詞匯注意嵌入(pairwise lexical attention embedding), \(\alpha\) 是一個固定的比例因子, 它在訓練開始時根據兩個項的大小自動計算一次.

為了計算成對詞匯注意嵌入(pairwise lexical attention embedding), 先計算句子對之間單詞的相似度, 而句子內單詞的相似度設定為0:

\[\begin{equation} s_{ij}= \left\{ \begin{aligned} &0 &&,\text{ if }x_i,x_j\in X_l\text{ or }x_i,x_j\in X_r\\ &\text{Sim}\big(w(x_i), w(x_j)\big) &&\text{, otherwise.} \end{aligned} \right. \end{equation} \]

其中 Sim 是一個度量, 用于表示兩個單詞之間的字串相似度.

之后通過將將 \(s_{ij}\) 帶入 Transformer 中的正余弦函式, 得到表示詞相似度的 embedding:

\[\begin{equation} \begin{aligned} l_{ij}^{(s_{ij}, 2p)}&=&&\sin{\left(\frac{2\pi\cdot d_{ij}}{\beta^{2p/d_h}} \right)},\\ l_{ij}^{(s_{ij}, 2p+1)}&=&&\cos{\left(\frac{2\pi\cdot d_{ij}}{\beta^{2p/d_h}} \right)}, \end{aligned} \end{equation} \]

最終的詞相似度嵌入 \(l_{ij}\) 是上了兩個向量的拼接.

Implementation details

論文中相似度度量選取的是 Jaccard 系數.
只在架構的后半層添加了 lexical attention bias.

Experiment

Performance

Impact of the lexical similarity choice

分析了使用不同相似度度量在 Abt-Buy 這個資料集上, BERT-Medium 的表現.
相似度度量包括: Jaccard (Jac.), Smith-Waterman (Smith), Longest Common Subsequence (LCS), Levenshtein (Lev.) and Jaro–Winkler (Jaro)

Jaccard 相似度系數是順序不可知的, 因此對字符交換更健壯.
Jaccard 在有錯別字和沒有錯別字的單詞對之間提供了更高的可分離性, 這在短文本中是有益的.
然而, 隨著句子長度的增加, 被比較的單詞具有相似字符但含義不同的概率增加, 這降低了交換不變性優勢.

Jaccard 相似系數: 集合 A, B 的交集與并集的比值

LEA on different layers and sharing strategy

文中認為, LEA 提供的字符級相似性可以被視為一種高級互動資訊.
因此, 它為深層 Transformer 層補充了高層次的特性.
文中并沒有驗證這一假設.

Impact of the noise strength

直觀地說, 由于 LEA 利用的字符級相似性不是在訓練程序中學習到的, 因此它們為模型提供的資訊在某種程度上較少依賴于噪聲的量.

圖3(下)顯示了隨著 typos 數量的增加, LEA 的性能與普通資料增強模型之間的差距越來越大, 這表明 LEA 可以更好地泛化到不同的噪聲強度.

Additional experiments

Larger model

1.BERT-Large

2.GPT-like models

Larger dataset

BERT-M + DA 在 WDC-Comp.XL 性能超過了 LEA, 但是標準差較大.

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/557139.html

標籤:其他

上一篇:python實作兩函式通過縮放,平移和旋轉進行完美擬合

下一篇:返回列表

標籤雲
其他(162479) Python(38274) JavaScript(25531) Java(18294) C(15241) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7296) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4616) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2439) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1998) .NET技术(1987) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1883) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • LEA: Improving Sentence Similarity Robustness to Typos Using

    # LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 論文閱讀 KDD 2023 [原文地址](https://arxiv.org/abs/2307.02912) ## Introd ......

    uj5u.com 2023-07-13 08:21:46 more
  • python實作兩函式通過縮放,平移和旋轉進行完美擬合

    # Curve _fitting 前幾天在作業的時候接到了一個需求,希望將不同坐標系,不同角度的兩條不規則曲線,并且組成該曲線的點集數量不一致,需求是希望那個可以通過演算法的平移和旋轉搞到一個概念里最貼合,擬合態進行比較。 ![image-20230712151728578](https://img2 ......

    uj5u.com 2023-07-13 08:21:22 more
  • 淺析華為云Astro的5大關鍵能力技術

    摘要:本文以技術方案視角,對華為云Astro低代碼平臺的一些核心功能進行簡要介紹。 背景介紹 低代碼開發基于可視化開發的概念,結合了云原生和多終端體驗技術,它可以在大多數業務場景中,幫助企業顯著的提升效率。同時為專業開發者提供了一種全新的高生產力開發方式,讓不懂代碼的人通過“拖拉拽”開發組件來完成應 ......

    uj5u.com 2023-07-13 08:21:11 more
  • 重塑未來的1課:組裝式交付新引擎——智能化低代碼平臺

    摘要:智能化低代碼必修課。 緊跟低代碼技術飛速發展——華為云Astro智能作業流驚艷HDC.Cloud 2023!企業對未來智能化組裝式交付的期待已不是空想。智能化低代碼即將重新定義傳統交付模式,密切連接AI科技與創造力。 在HDC.Cloud 2023華為云Astro分論壇,云計算大咖、行業翹楚科 ......

    uj5u.com 2023-07-13 08:20:43 more
  • 盤古大模型加持,華為云開天aPaaS加速使能千行百業應用創新

    摘要:開天aPaaS,讓優秀快速復制,支撐開發者及伙伴上好云、用好云。 本文分享自華為云社區《盤古大模型加持,華為云開天aPaaS加速使能千行百業應用創新》,作者:開天aPaaS小助手。 7月7-9日,華為開發者大會(Cloud)2023在東莞隆重召開。此次大會,華為云開天aPaaS帶來了主題演講、 ......

    uj5u.com 2023-07-13 08:19:49 more
  • Navicat Premium v16.0.6 綠色破解版

    這里版本:Navicat Premium v16.0.6.0 ,這個是綠色版,不需要安裝,啟動Navicat.exe即可用 破解工具:NavicatKeygenPatch(其它版本也能破解) 1、下載安裝檔案 鏈接:https://pan.baidu.com/s/1_9XLoqulp2EyI2H0G ......

    uj5u.com 2023-07-13 08:18:26 more
  • 華為云5大開源專案發布與更新,助力開發者實作應用創新

    摘要:華為開發者大會2023(Cloud)期間,由華為云開源主導的“5大開源專案發布與更新,多種底層能力助力開發者實作應用創新”分論壇圓滿落幕。 本文分享自華為云社區《HDC.Cloud 2023 |華為云5大開源專案發布與更新,助力開發者實作應用創新》,作者:華為云開源。 華為開發者大會2023( ......

    uj5u.com 2023-07-13 08:18:07 more
  • 北斗GPS校時器,NTP網路時鐘服務器,局域網時間統一

    北斗GPS校時器,NTP網路時鐘服務器,局域網時間統一 北斗GPS校時器,NTP網路時鐘服務器,局域網時間統一 京準電子科技官微——ahjzsz 1.1.1 該系統特點: ã系統構成簡單,實用、可靠,具有很高的性價比。 ã子鐘可以是LED數顯或模擬(指標)形式、或兩種形式的混合,數量不限,可大規模擴 ......

    uj5u.com 2023-07-13 08:17:56 more
  • GPS北斗網路時鐘同步器(衛星時鐘發生器)插卡式模組設計方案

    GPS北斗網路時鐘同步器(衛星時鐘發生器)插卡式模組設計方案 GPS北斗網路時鐘同步器(衛星時鐘發生器)插卡式模組設計方案 京準電子科技官微——ahjzsz 4.1 時間同步系統功能 時間同步系統的主要功能就是為變電站用時設備提供全站統一的時間基準。時間同步系統應以天基授時為主,地基授時為輔,逐步形 ......

    uj5u.com 2023-07-13 08:17:46 more
  • 電子表格vlookup函式使用

    vlookup是常用的輔助查找函式,但是這個函式的引數定義和解釋非常的難以理解,即使用向導也很難搞清楚哪個引數是啥意思。放到編程圈里面應該也算bad design的典型了。下面是函式的定義,每次看到這個定義都一臉懵逼: 下面對每個引數進行詳細的解釋: 查找值:一般是和查找結果在同一個sheet頁里面 ......

    uj5u.com 2023-07-13 08:17:36 more