[중요한 metadata 정보 태깅 할 것들]1. 페이지 번호 = 신뢰성 (할루시네이션 인지) 실제 있는 정보인지 2. 파일명 = 마찬가지로 신뢰성3. MOD(modified date) = 비슷한 단락에 최신정보를 가져오는 것이 중요하기 때문에 설정4. Author = 키워드 추출이 필요할 수 있다. (검색할 때 더 정확성 있음) [PDF Croping]1. 상하단에 불필요한 정보가 담겨있어 미리 정보를 제거2. 파싱할 때 문단의 나눔 (PDF) 1:1 비율, 1:2 비율이 존재할 수 있다.- 파싱을 할 때 PDFPlumber Bounding BOX를 이용한다. - PDFminer를 이용해 분할된 컬럼에 대해서 자동으로 처리해줌※ 그래프에 단어가 있을 경우- 그래프를 사전에 제거하기 / 한줄에 글자수가..