Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

쉬엄쉬엄블로그

(MRC) QA with Phrase Retrieval 본문

부스트캠프 AI Tech 4기

쉬엄쉬엄블로그 2023. 9. 18. 11:13

728x90

이 색깔은 주석이라 무시하셔도 됩니다.

Current limitation of Retriever-Reader approach
1. Error Propagation : 5~10개의 문서만 reader에게 전달됨
2. Query-dependent encoding : query에 따라 정답이 되는 answer span에 대한 encoding이 달라짐
How does Document Search work?
One solution : Phrase Indexing
Query-Agnostic Decomposition
- F가 G와 H로 나뉠 수 있다는 가정이 필요함
  - 따라서 실질적으로 정확히 decompose하기보다는 G와 H를 학습하되 최대한 F를 흉내내도록 근사하는 방법으로 갈 수 밖에 없음

Dense vectors vs Sparse vectors
- Dense vectors : 통사적, 의미적 정보를 담는 데 효과적
- Sparse vectors : 어휘적 정보를 담는 데 효과적
Phrase and Question Embedding
- Dense vector와 sparse vector를 모두 사용하여 phrase (and question) embedding
Dense representation
- Dense vector를 만드는 방법
  - Pre-trained LM (e.g. BERT)를 이용
  - start vector와 end vector를 재사용해서 메모리 사용량을 줄임
- Coherency vector
  - phrase가 한 단위의 문장 구성 요소에 해당하는지를 나타냄
  - 구(句)를 형성하지 않는 phrase를 걸러내기 위해 사용함
  - start vector와 end vector를 이용하여 계산
- Question embedding
  - Question을 임베딩할 때는 [CLS] 토큰(BERT)을 활용
Sparse representation
- Sparse vector를 만드는 방법
  - 문맥화된 임베딩(contextualized embedding)을 활용하여 가장 관련성이 높은 n-gram으로 sparse vector 구성
Scalability Challenge
- In Wikipedia : 60 billion개의 phrases가 존재 ⇒ storage, indexing, search의 scalability가 고려되어야 함
  - Storage : pointer, filter, scalar quantization 활용 (240T storage ⇒ 1.4T storage)
  - Search : FAISS를 활용해 dense vector에 대한 search를 먼저 수행 후 sparse vector로 reranking

Experiment Results - SQuAD-open
- SQuAD-open (Open-domain QA)
  - s/Q : seconds per query on CPU
  - #D/Q : number of documents visited per query
  - DrQA (Retriever-reader)보다 +3.6% 성능 / 68x 빠른 inference speed(less than 1s)
Limitation in Phrase Retrieval Approach
- Decomposability gap
  - (기존) question, passage, answer가 모두 함께 encoding
  - (Phrase retrieval) Question과 passage/answer이 각각 encoding → question과 passage사이 attention 정보 x

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)

(Product Serving) Cloud (0)	2023.09.20
(AI 서비스 개발) 내가 만든 AI 모델은 합법일까, 불법일까 (1)	2023.09.19
(MRC) Closed-book QA with T5 (0)	2023.09.16
(MRC) Reducing Training Bias (0)	2023.09.15
(MRC) Linking MRC and Retrieval (0)	2023.09.14

'부스트캠프 AI Tech 4기' Related Articles

Comments