banner
홈페이지 / 블로그 / 자동 생성된 코퍼스를 통한 소재 정보 추출
블로그

자동 생성된 코퍼스를 통한 소재 정보 추출

Aug 15, 2023Aug 15, 2023

과학 데이터 9권, 기사 번호: 401(2022) 이 기사 인용

2603 액세스

1 인용

1 알트메트릭

측정항목 세부정보

자연어 처리(NLP)의 정보 추출(IE)은 구조화되지 않은 텍스트에서 구조화된 정보를 추출하여 컴퓨터가 자연어를 이해하도록 돕는 것을 목표로 합니다. 기계 학습 기반 IE 방법은 더 많은 지능과 가능성을 제공하지만 광범위하고 정확한 레이블이 지정된 코퍼스가 필요합니다. 재료과학 분야에서 신뢰할 수 있는 라벨을 부여하는 것은 많은 전문가의 노력이 필요한 힘든 작업입니다. IE 동안 수동 개입을 줄이고 자료 코퍼스를 자동으로 생성하기 위해 이 작업에서는 자동으로 생성된 코퍼스를 통해 자료에 대한 준지도 IE 프레임워크를 제안합니다. 이전 작업의 초합금 데이터 추출을 예로 들면, Snorkel을 사용하여 제안된 프레임워크는 속성 값이 포함된 코퍼스에 자동으로 레이블을 지정합니다. 그런 다음 생성된 코퍼스에 대한 정보 추출 모델을 훈련하기 위해 ON-LSTM(Ordered Neurons-Long Short-Term Memory) 네트워크가 채택됩니다. 실험 결과는 초합금의 γ' 솔버스 온도, 밀도 및 고상선 온도의 F1 점수가 각각 83.90%, 94.02%, 89.27%임을 보여줍니다. 또한, 다른 재료에 대해서도 유사한 실험을 수행했으며, 실험 결과는 제안된 프레임워크가 재료 분야에서 보편적이라는 것을 보여줍니다.

자연어 처리(NLP)는 컴퓨터가 자연어를 분석하고 처리할 수 있도록 텍스트 지식을 컴퓨터가 이해하는 데 중점을 둡니다1. NLP의 정보 추출(IE)은 가장 눈에 띄는 텍스트 마이닝 기술 중 하나이며 구조화되지 않은 텍스트에서 구조화된 정보를 추출하는 것을 목표로 합니다2. 재료 분야의 과학 문헌에는 신뢰할 수 있는 데이터가 많이 포함되어 있어 데이터 기반 재료 연구 및 개발을 촉진합니다3,4,5. 인간의 수동 추출에만 의존하는 것은 시간이 많이 걸립니다6. 따라서 화학 및 재료 과학 분야의 기사에서 유기 및 무기 화학 물질의 자동 데이터 추출은 NLP 기술을 사용하여 의미가 있습니다7,8,9,10,11.

기계 학습과 NLP의 발전으로 IE 기술은 특히 생물학과 의학 분야에서 빠르게 발전했습니다6. Sunilet al. IE는 의미론적 관계를 탐지하고 분류하는 과정을 제안했으며, CNN(Convolutional Neural Network)을 사용하여 의미론적 특징을 획득하여 생체의학 영역의 정보를 추출한다고 제안했습니다12. 많은 논문에서 기능 최적화를 위해 딥러닝 모델을 적용했습니다. 예를 들어, Xinbo et al. 조건부 무작위 필드(CRF)를 사용하여 컨텍스트의 특징을 분류하고 자동 인코더 및 희소성 제한을 사용하여 단어 희소성 문제를 해결했습니다. 최근에는 LSTM(Long Short-Term Memory)으로 가능한 정보를 검색하기 위해 다른 IE 시스템도 조사되었습니다. Raghavendraet al. 양방향 LSTM 및 CRF에 단어를 삽입했습니다. 그들은 순환 신경망을 사용하여 특징을 얻고 임상 개념 추출을 완료했습니다14. Arshadet al. 언어 문법을 이해하고 단어 간의 관계를 추론하기 위한 LSTM 방법을 제시했습니다15. 그러나 위의 모든 신경망은 네트워크를 훈련하기 위해 광범위하고 정확한 레이블이 지정된 코퍼스가 필요합니다.

불행하게도 초합금과 같은 많은 재료 주제에 대한 논문이 상대적으로 적기 때문에 논문에서 필요한 정보를 추출하는 것은 까다로운 작업이 됩니다. 이전 작업11에서 우리는 초합금 ​​과학 문헌에서 화학적 조성과 특성 데이터를 모두 캡처하기 위해 NLP 파이프라인을 개발했습니다. 제한된 학습 코퍼스 레이블의 단점을 극복하고 높은 정밀도와 재현율을 동시에 달성하기 위해 규칙 기반 NER(Named Entity Recognition) 방법과 파이프라인에 대한 거리 기반 경험적 다중 관계 추출 알고리즘이 제안되었습니다. 제안된 IE 알고리즘은 규칙 기반 방법인 반면, 기계 학습 방법은 레이블이 지정된 코퍼스가 훈련에 충분하지 않아 비교 후 포기되었습니다. 인간이 혼자서 완성한다면 많은 전문가의 노력이 필요한 힘든 작업이다. 규칙 기반 전략은 이러한 조건에서 효율적이지만 독립적으로 학습하고 업데이트할 수 있는 능력이 없습니다. 따라서 머신러닝 기반 IE에서는 수동 개입을 줄일 수 있는 물질 영역의 코퍼스를 자동으로 생성하는 것이 필요하며, 이를 통해 컴퓨터가 스스로 논문을 읽고 데이터 세트를 추출하는 것이 현실화될 것입니다.