쉬엄쉬엄블로그

(데이터 제작) 데이터 구축 가이드라인 작성 기초 본문

부스트캠프 AI Tech 4기

(데이터 제작) 데이터 구축 가이드라인 작성 기초

쉬엄쉬엄블로그 2023. 9. 1. 13:45
728x90

이 색깔은 주석이라 무시하셔도 됩니다.

데이터 구축 가이드라인 작성 기초

가이드라인의 유형

문서형 가이드라인 예시

  • 한국어 학습자 말뭉치 구축 가이드라인

튜토리얼 가이드라인 예시

https://www.cashmission.com/cashmission_guide/53

가이드라인의 구성 요소

데이터 구축 목적 정의 예시

  • 작업자들의 작업에 대한 이해도를 높여 더 높은 품질의 데이터를 만들 수 있도록 돕는 역할

    http://knconsulting.co.kr/knowledge/? q=YToyOntzOjQ6InBhZ2UiO2k6MTtzOjEyOiJrZXl3b3JkX3R5cGUiO3M6MzoiYWxsIjt9&bmode=view&idx=6009133&t=board&category=bgG5885

    http://knconsulting.co.kr/knowledge/? q=YToyOntzOjQ6InBhZ2UiO2k6MTtzOjEyOiJrZXl3b3JkX3R5cGUiO3M6MzoiYWxsIjt9&bmode=view&idx=6009133&t=board&category=bgG5885

데이터 구축 가이드라인 용어 정의 예시

https://alt.qcri.org/semeval2016/task5/data/uploads/absa2016_annotationguidelines.pdf

데이터 수집 가이드라인 예

https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63

데이터 체계 제시 예시

https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63

https://www.cis.upenn.edu/~bies/manuals/tagguide.pdf

데이터 구축 도구 사용법 예시

가이드라인 버전 관리

  • 가이드라인은 구축과 검수 과정을 통해 지속적으로 개정되어야 함
  • 개정 전과 개정 후 어떤 것이 변화하였는지 비교하여 볼 수 있도록 버전 관리가 되는 것이 가장 좋음
  • 버전별로 작성자와 개정일을 기입해두는 것이 관리에 도움이 됨

가이드라인 작성 도구

Google Docs

  • 공유가 자유로움
  • 자동 저장됨
  • 소규모 프로젝트를 할 때 가이드라인 작성하기 좋음
  • 초안을 작성할 때 좋음

Notion

  • 많이 사용되고 좋음
  • 다양한 페이지 형식을 제공함
  • 진행상황이나 QnA를 노션으로 많이 사용
  • 가장 추천하는 도구

워드 및 한글

  • 정부 사업을 할 때는 한글이 기본

그 외

  • 레이블링 에이전시에서 제공하는 도구
  • 위키
  • 등등

가이드라인 작성 시 유의 사항

  • 가이드라인의 유형별 특성을 이해하고 그에 알맞는 정보를 작성한다.
  • 작업자의 작업 이해도를 고려하여 작성한다.
  • 작업자에게 공개해야 하는 필수 정보와 부가적인 정보가 무엇인지 사전에 고려한다.
  • 가이드라인 구성 요소의 배치를 어떻게 할지 고민한다.
  • 작업자의 가독성을 고려한다.
    • 너무 많은 정보를 노출하는 것보다 중요한 정보를 강조해주는 것이 좋음

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)

Comments