ونعم - يتم أيضًا حساب الأسطر الفارغة في الكود. يتم تقديم عرض صغير للعمل في نهاية المقال.
نحتاج إلى python3 ، الذي تم تنزيله بواسطة Tesseract 5 ، ونموذج distiluse-base-multilingual-cased من حزمة Sentence-Transformers . أولئك الذين يفهمون بالفعل ما سيحدث بعد ذلك لن يكونوا مثيرين للاهتمام.
في غضون ذلك ، سيبدو كل ما نحتاجه كما يلي:
أول 18 سطرًا
import numpy as np
import os, sys, glob
os.environ['PATH'] += os.pathsep + os.path.join(os.getcwd(), 'Tesseract-OCR')
extensions = [
'.xlsx', '.docx', '.pptx',
'.pdf', '.txt', '.md', '.htm', 'html',
'.jpg', '.jpeg', '.png', '.gif'
]
import warnings; warnings.filterwarnings('ignore')
import torch, textract, pdfplumber
from cleantext import clean
from razdel import sentenize
from sklearn.neighbors import NearestNeighbors
from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('./distillUSE')
ستكون هناك حاجة ، كما ترون ، بشكل لائق ، ويبدو أن كل شيء جاهز ، لكن لا يمكنك الاستغناء عن ملف. على وجه الخصوص ، لا يعمل textract (ليس من Amazon ، الذي يتم دفعه) بطريقة ما بشكل جيد مع ملفات pdf الروسية ، حيث يمكنك استخدام pdfplumber . علاوة على ذلك ، يعد تقسيم النص إلى جمل مهمة صعبة ، ويقوم razdel بعمل ممتاز مع اللغة الروسية في هذه الحالة .
أولئك الذين لم نسمع عن scikit تعلم -
الشيء الرئيسي هو تحويل نص (أي) ملف فعليًا إلى متجه ، وهذا ما يفعلونه:
36 سطرًا من التعليمات البرمجية التالية
def processor(path, embedder):
try:
if path.lower().endswith('.pdf'):
with pdfplumber.open(path) as pdf:
if len(pdf.pages):
text = ' '.join([
page.extract_text() or '' for page in pdf.pages if page
])
elif path.lower().endswith('.md') or path.lower().endswith('.txt'):
with open(path, 'r', encoding='UTF-8') as fd:
text = fd.read()
else:
text = textract.process(path, language='rus+eng').decode('UTF-8')
if path.lower()[-4:] in ['.jpg', 'jpeg', '.gif', '.png']:
text = clean(
text,
fix_unicode=False, lang='ru', to_ascii=False, lower=False,
no_line_breaks=True
)
else:
text = clean(
text,
lang='ru', to_ascii=False, lower=False, no_line_breaks=True
)
sentences = list(map(lambda substring: substring.text, sentenize(text)))
except Exception as exception:
return None
if not len(sentences):
return None
return {
'filepath': [path] * len(sentences),
'sentences': sentences,
'vectors': [vector.astype(float).tolist() for vector in embedder.encode(
sentences
)]
}
حسنًا ، تظل المسألة تقنية - لتصفح جميع الملفات واستخراج المتجهات والعثور على أقرب نقطة إلى الاستعلام من خلال مسافة جيب التمام.
الكود المتبقي
def indexer(files, embedder):
for file in files:
processed = processor(file, embedder)
if processed is not None:
yield processed
def counter(path):
if not os.path.exists(path):
return None
for file in glob.iglob(path + '/**', recursive=True):
extension = os.path.splitext(file)[1].lower()
if extension in extensions:
yield file
def search(engine, text, sentences, files):
indices = engine.kneighbors(
embedder.encode([text])[0].astype(float).reshape(1, -1),
return_distance=True
)
distance = indices[0][0][0]
position = indices[1][0][0]
print(
' "%.3f' % (1 - distance / 2),
': "%s", "%s"' % (sentences[position], files[position])
)
print(' "%s"' % sys.argv[1])
paths = list(counter(sys.argv[1]))
print(' "%s"' % sys.argv[1])
db = list(indexer(paths, embedder))
sentences, files, vectors = [], [], []
for item in db:
sentences += item['sentences']
files += item['filepath']
vectors += item['vectors']
engine = NearestNeighbors(n_neighbors=1, metric='cosine').fit(
np.array(vectors).reshape(len(vectors), -1)
)
query = input(' : ')
while query:
search(engine, query, sentences, files)
query = input(' : ')
يمكنك تشغيل كل الكود مثل هذا:
python3 app.py /path/to/your/files/
هذا هو الحال مع الكود.
وها هو العرض التوضيحي الموعود.
أخذت خبرين من "Lenta.ru" ، ووضعت أحدهما في ملف gif من خلال الطلاء سيئ السمعة ، والآخر في ملف نصي.
First.gif
ملف .txt الثاني
, . .
, - . , , , . . , .
, , , . . .
, - - .
, №71 , , , . 10 , . — .
, - . , , , . . , .
, , , . . .
, - - .
, №71 , , , . 10 , . — .
وهنا رسم متحرك gif يوضح كيف يعمل. مع وحدة معالجة الرسومات ، بالطبع ، كل شيء يعمل بشكل أكثر بهجة.
شكرا للقراءة! ما زلت آمل أن تكون هذه الطريقة مفيدة لشخص ما.