cb-api / lib /llm_2.py
muryshev's picture
update
a5177da
import re
import numpy as np
import requests
import json
import pandas as pd
typedf = pd.read_excel('types.xlsx')
verbose = False
# s = 'Тип обращения: Жалобы > Сектор: Акционерные общества/эмитенты эмиссионных ценных бумаг > Продукт: Дивиденды'
# s = 'Тип обращения: Прочие обращения (запрос, заявление, вопрос) > Сектор: Субъекты страхового дела > Продукт: Прочие обращения (страхование) > Проблема: Иные обращения: Страхование > Обращение может быть типологизировано по иной проблеме: Нет'
level = 'Тип обращения'
level = 'Сектор'
level = 'Продукт'
level = 'Проблема'
level = 'Проблема'
def getType(str, level) :
type = ''
t = level + ': [^>]+'
# t = r'Сектор\: \w+/\w+ >'
m = re.search(t, str)
if m :
substr = str[m.start() : m.end()]
substr
m = re.search('\: [\w ]+', substr)
subsubstr = substr[m.start() + 2 : ]
# subsubstr
type = subsubstr.strip()
return type
def getQuestionAnswer(str) :
q = ''
a = ''
l = str.split('>')
if len(l) == 5 :
q = l[4][1 :]
x = q.find(':')
a = q[x + 2 :]
q = q[: x]
return q, a
types = []
sectors = []
products = {}
problems = {}
for index, row in typedf.iterrows() :
text = row['Путь до вершины']
text = str(text)
if text != '' :
apptype = getType(text, 'Тип обращения')
sector = getType(text, 'Сектор')
product = getType(text, 'Продукт')
problem = getType(text, 'Проблема')
sector = sector.replace(' ', ' ')
product = product.replace(' ', ' ')
problem = problem.replace(' ', ' ')
if apptype == 'Жалобы' and sector != '' and product != '' and problem != '' :
if sector not in sectors :
sectors.append(sector)
if sector not in products :
products[sector] = []
if product not in products[sector] :
products[sector].append(product)
if sector not in problems :
problems[sector] = {}
if product not in problems[sector] :
problems[sector][product] = []
if problem not in problems[sector][product] :
problems[sector][product].append(problem)
def getCategory(text, categories) :
found = False
text = text.lower()
for category in categories :
if category.lower() in text :
found = True
break
if found == False :
category = ''
return category
def getResponse(prompt) :
url = "https://muryshev-mixtral-api.hf.space/completion"
print('Prompt: '+prompt)
payload = json.dumps({
"prompt": '[INST]' + prompt + '[/INST]'
})
headers = {
'Content-Type': 'application/json'
}
response = requests.request("POST", url, headers = headers, data = payload)
result = response.content.decode('utf-8')
return result
def getCategoryFromLLM(prompt, categories) :
category = ''
for j in range(5) :
result = getResponse(prompt)
category = getCategory(result, categories)
if category != '' :
break
prompt += '.'
return category, result
def getAccuracy(answers, trueanswers) :
count = 0
for i in range(len(trueanswers)) :
if answers[i] == trueanswers[i] :
count += 1
return count / len(trueanswers)
def getAnswers(applications, prefix, categories, answers) :
# print(categories)
output = []
for i in range(len(applications)) :
text = applications[i]
prompt = prefix + text
category, response = getCategoryFromLLM(prompt, categories)
answer = ''
for j in range(len(categories)) :
if category == categories[j] :
answer = answers[j]
break
brief = response.replace('\n', '')
if len(brief) > 80 :
brief = brief[:80] + '...'
if verbose :
print(i, ':', answer, ' \tLLM output :', brief)
output.append(answer)
return output
def getSector(application) :
sectortext = ''
for j in range(len(sectors)) :
sectortext += str(j) + '. ' + sectors[j] + '\n'
prompt = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты сортируешь заявления клиентов.
Ты не отвечаешь на вопросы, не комментируешь, не выражаешь эмоций, не выражаешь соображений по теме заявления.
Ты извлекаешь информацию. Ты не анализируешь.
Ты выполняешь только эту задачу: ты определяешь категорию заявления. Для этого ты используешь ТОЛЬКО список возможных категорий, который я тебе предоставляю.
Ты выбираешь только ТУ категорию, которая на сто процентов соответсвует обращению. Проверь свой ответ дважды.
Ты всегда используешь такой формат ответа: "название категории".
Если в тексте обращения есть аббревиатуры "МФО", "МФК" или "МКК", ты должен выбрать категорию "Микрофинансовые организации".
Если в тексте обращения есть аббревиатуры "ОСАГО" или "КАСКО", ты должен выбрать категорию "Субъекты страхового дела".
Список категорий:
''' + sectortext + '\nЗаявление: ' + application
sector, response = getCategoryFromLLM(prompt, sectors)
if verbose :
print(i, ':', sector)
return sector, prompt, response
def getProduct(application, sector) :
product = ''
# sector = appsectors[i]
if sector != '' :
subproducts = products[sector]
producttext = ''
for j in range(len(subproducts)) :
producttext += str(j) + '. ' + subproducts[j] + '\n'
prompt = 'Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты сортируешь заявления клиентов. Ты не отвечаешь на вопросы, не комментируешь, \
не выражаешь эмоций, не выражаешь соображений по теме обращения. Ты извлекаешь персональные данные. Ты не анализируешь. \
Ты выполняешь только эту задачу: \
ты определяешь категорию заявления. Для этого ты используешь ТОЛЬКО список возможных категорий, который я тебе предоставляю. \
Ты выбираешь только ТУ категорию, которая на сто процентов соответсвует заявлению. Проверь свой ответ дважды. \
Ты всегда используешь такой формат ответа: "название категории". \n\
Список категорий:\n' + producttext + '\nЗаявление: ' + application
product, response = getCategoryFromLLM(prompt, subproducts)
if verbose :
print(product)
return product, prompt, response
def getProblem(application, sector, product) :
problem = ''
if sector != '' and product != '':
subpproblems = problems[sector][product]
problemtext = ''
for j in range(len(subpproblems)) :
problemtext += str(j) + '. ' + subpproblems[j] + '\n'
prompt = 'Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты сортируешь заявления клиентов. Ты не отвечаешь на вопросы, не комментируешь, \
не выражаешь эмоций, не выражаешь соображений по теме обращения. Ты извлекаешь персональные данные. Ты не анализируешь. \
Ты выполняешь только эту задачу: \
ты определяешь категорию заявления. Для этого ты используешь ТОЛЬКО список возможных категорий, который я тебе предоставляю. \
Ты выбираешь только ТУ категорию, которая на сто процентов соответсвует заявлению. Проверь свой ответ дважды. \
Ты всегда используешь такой формат ответа: "название категории". \n\
Список категорий:\n' + problemtext + '\nЗаявление: ' + application
problem, response = getCategoryFromLLM(prompt, subpproblems)
if verbose :
print(problem)
return problem, prompt, response
def getAuthor(application) :
prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты не отвечаешь на вопросы, не комментируешь,
не выражаешь эмоций, не выражаешь соображений по теме обращения.
Ты извлекаешь информацию из заявления. Ты отвечаешь на МОЙ вопрос:
"Кто является заявителем в заявлении?". Ты называешь имя заявителя в формате: "Заявитель: Фамилия Имя Отчество".
Если заявиитель не указан в заявлении, ты отвечаешь: "Заявитель: не указан".
Ты не комментируешь, не обясняешь, не выражаешь мысли, вообще ничего больше не говоришь.
Обращение: '''
prompt = prefix + application
# prompt = prefix + appdata.loc[i, 'Текст обращения обезличенный']
response = getResponse(prompt)
response = response.replace('.', '. ')
name = 'не указан'
if name not in response :
m = re.search(r'Заявитель: [А-Я][а-я][\w\.]+ [А-Я][\w\.]+ [А-Я][\w\.]+', response)
if m :
name = response[m.start() + 11 : m.end()]
else :
m = re.search(r'Заявитель: [А-Я][а-я][\w]+ [А-Я][а-я][\w]+', response)
if m :
name = response[m.start() + 11 : m.end()]
if verbose :
print(name, '\n', response[:100].replace('\n', ' '))
return name
def checkContractNumber(application) :
categories = ['да', 'нет']
answers = ['да', 'нет']
prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты извлекаешь информацию из заявлений.
Ты не отвечаешь на вопросы, не комментируешь, не выражаешь эмоций, не выражаешь соображений по теме обращения.
Ты только отвечаешь на МОЙ вопрос: "Имеется ли в заявлении указанный номер договора?".
Ты отвечаешь либо ТАК "ответ: да, имеется" ЛИБО так "ответ: нет, не имеется". Конец ответа.
Если в заявлении нет слова "договор", ты отвечаешь "ответ: нет, не имеется"
Ты не комментируешь, не объясняешь, не выражаешь мысли, вообще ничего больше не говоришь.
Заявление: '''
ifcontract = getAnswers([application], prefix, categories, answers)
return ifcontract[0]
def checkIfIdentified(application) :
сategories = ['нельзя', 'можно']
answers = ['нет', 'да']
prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке.
Ты не отвечаешь на вопросы, не комментируешь, не выражаешь эмоций, не выражаешь соображений по теме жалобы.
Ты ищешь в заявлении объект жалобы: "Можно ли идентицифировать в заявлении объект жалобы (тот, на кого жалуется заявитель)?".
Твой ответ ВСЕГДА состоит из ТРЕХ слов: ты отвечаешь либо ТАК "да, можно", ЛИБО так "нет, нельзя".
Ты не комментируешь, не объясняешь, не выражаешь мысли, вообще ничего больше не говоришь.
Жалоба: '''
ifidentified = getAnswers([application], prefix, сategories, answers)
return ifidentified[0]
def checkIfPerson(application) :
categories = ['физическое лицо', 'юридическое лицо']
answers = ['Физ.лицо', 'Юр.лицо']
prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты сортируешь "заявления" клиентов.
Ты не отвечаешь на вопросы, не комментируешь, не выражаешь эмоций, не выражаешь соображений по теме обращения.
Ты извлекаешь информацию. Ты не анализируешь.
Ты отвечаешь ТОЛЬКО на мои вопросы. Ты определяешь кем является заявитель: "физическое лицо" или "юридическое лицо".
Условие: если заявление написано в первом лице (местоимения Я, МНЕ, МНОЮ, МОЕ, МЕНЯ), то это физическое лицо, НО если заявление написано в третьем лице, то это юридическое лицо.
Ты отвечаешь только так: "Заявитель: юрдическое лицо" или "Заявитель: физическое лицо".
Ты не комментируешь, не обясняешь, не выражаешь мысли, вообще ничего больше не говоришь.
Заявление: '''
ifperson = getAnswers([application], prefix, categories, answers)
return ifperson[0]
def checkIfcomission(application) :
categories = ['не касается', 'касается']
answers = ['нет', 'да']
prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты извлекаешь информацию из заявлений.
Ты не отвечаешь на вопросы, не комментируешь, не выражаешь эмоций, не выражаешь соображений по теме обращения.
Ты только отвечаешь на МОЙ вопрос: "Касается ли заявление комиссии за обслуживание рублевого счета?".
Ты отвечаешь либо ТАК "ответ: да, касается" ЛИБО так "ответ: нет, не касается". Конец ответа.
Если в заявлении нет слова "комиссия", ты отвечаешь "ответ: нет, не касается"
Ты не комментируешь, не объясняешь, не выражаешь мысли, вообще ничего больше не говоришь.
Заявление: '''
ifсomission = getAnswers([application], prefix, categories, answers)
return ifсomission[0]
def getContractData(application) :
prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты не отвечаешь на вопросы, не комментируешь,
не выражаешь эмоций, не выражаешь соображений по теме обращения.Ты выполняешь только эту задачу:
ты извлекаешь из заявления только *номер ДОГОВОРА* и "дата ДОГОВОРА".
Ты всегда используешь только такой формат: "Номер договора: *номер ДОГОВОРА*, Дата: *дата этого договора*;".
Если указан любой другой номер, но НЕ номер ДОГОВОРА, то ты отвечаешь так: "Номер договора не указан."
Ты должен убедиться, что слово "договор" присутствует рядом с указанным номером и исключить другие документы, такие как счета или заказы,
например: "В соответствии с Договором № 0001 от 01.01.2022 года...".
В этом примере номером договора является "0001" и датой договора является "01.01.2022".
Даты договоров должны быть указаны в формате "дд.мм.гггг", где "дд" - это число от 01 до 31, "мм" - число от 01 до 12,
а "гггг" - четырехзначное число года. Между днями, месяцами и годами должны быть разделители, например, точки или тире.
Ты больше НИЧЕГО не говоришь, не комментируешь, не объясняешь, не добавляешь.
Заявление: '''
prompt = prefix + application
response = getResponse(prompt)
response = response.replace(';', '\n')
response = response.replace('\\\\', '')
l = response.split('\n')
ll = []
for s in l :
s = s.strip()
if 'Номер договора:' == s[:15] :
ll.append(s)
result = '\n'.join(ll)
if result == '' :
result = 'не указаны'
if verbose :
print(result)
# print(name, '\n', response.strip()[:100].replace('\n', ' '))
return result
def getPersons(application) :
# prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты сортируешь заявления клиентов. Ты не отвечаешь на вопросы, не комментируешь,
# не выражаешь эмоций, не выражаешь соображений по теме заявления. Ты извлекаешь ВСЕ персональные данные из заявлений. Ты не анализируешь.
# Ты выполняешь только эту задачу:
# ты читаешь заявление и извлекаешь из заявления все встретившиеся Фамилии Имена Отчества.
# Ты всегда используешь только такой формат: "ФИО пользователя". Перед ответом убедись, что "ФИО" - это человеческие фамилия, имя, отчество.
# Ты больше ничего не говоришь, не комментируешь, не объясняешь, не добавляешь. Отвечай так: "ФИО;"; ЛИБО: "ФИО не указано".
# Заявление: '''
prefix = '''Ты мой помощник. Ты отвечаешь только на РУССКОМ языке. Ты излекаешь информацию из заявления. Ты не отвечаешь на вопросы, не комментируешь,
не выражаешь эмоций, не выражаешь соображений по теме заявления. Ты извлекаешь персональные данные. Ты не анализируешь.
Ты выполняешь только эту задачу:
ты читаешь заявление и извлекаешь из заявления все встретившиеся Фамилии Имена Отчества.
Ты отвечаешь в формате: "ФИО: Фамилия Имя Отчество ;" или "ФИО: Фамилия И. О. ;".
Если в заявлении не указаны имена людей, ты отвечаешь "ФИО не указаны".
Перед ответом убедись, что "ФИО" - это человеческие фамилия, имя, отчество.
Ты больше ничего не говоришь, не комментируешь, не объясняешь, не добавляешь.
Заявление: '''
prompt = prefix + application
# prompt = prefix + appdata.loc[i, 'Текст обращения обезличенный']
response = getResponse(prompt)
response = response.replace('указаны.', 'указаны')
response = response.replace('.', '. ')
response = response.replace(';', '\n')
# response = response.replace('\\\\', '')
l = response.split('\n')
ll = []
for s in l :
s = s.strip()
if 'ФИО: ' == s[:5] and 'ФИО: не указаны' not in s:
ss = ''
s = s[5:]
s = re.sub('\(.+\)', '', s)
s = s.replace('ч.', 'ч')
s = s.replace('а.', 'а')
s = s.replace('Президент Российской Федерации', '')
s = s.replace(',', '').strip()
# n = len(s.split(' '))
# print(n, s.split(' '))
# if n > 1 and n < 4 :
# ll.append(s)
m = re.search(r'[А-Я][а-я][\w\.]+ [А-Я][\w\.]+ [А-Я][\w\.]+', s)
if m :
ss = s[m.start() : m.end()]
else :
m = re.search(r'[А-Я][а-я][\w]+ [А-Я][а-я][\w]+', s)
if m :
ss = s[m.start(): m.end()]
if ss != '' :
ll.append(ss)
result = '\n'.join(ll)
if result == '' :
result = 'не указаны'
names = result
if verbose :
print(names, '\n', response[:100].replace('\n', ' '))
return names
def getApplicationInfo(application) :
sector, sector_prompt, sector_response = getSector(application)
product, product_prompt, product_response = getProduct(application, sector)
problem, problem_prompt, problem_response = getProblem(application, sector, product)
author = getAuthor(application)
persons = getPersons(application)
contractdata = getContractData(application)
ifcontract = checkContractNumber(application)
ifidentified = checkIfIdentified(application)
ifperson = checkIfPerson(application)
ifcomission = checkIfcomission(application)
app_info = {}
app_info['Сектор'] = sector
app_info['Продукт'] = product
app_info['Проблема'] = problem
app_info['Заявитель'] = author
app_info['Физлица'] = persons
app_info['Данные договора'] = contractdata
app_info['Заявитель физическое или юридическое лицо?'] = ifperson
app_info['Можно ли идентифицировать лицо, на которого пожаловались?'] = ifidentified
app_info['Указан ли в обращении номер договора?'] = ifcontract
app_info['Жалоба касается комиссии за обслуживание рублевого счета?'] = ifcomission
debug_info = {
'sector_prompt': sector_prompt,
'sector_response': sector_response,
'product_prompt': product_prompt,
'product_response': product_response,
'problem_prompt': problem_prompt,
'problem_response': problem_response,
}
if verbose :
print()
print(i)
print('Сектор', sector)
print('Продукт', product)
print('Проблема', problem)
print('Заявитель', author)
print('Физлица', persons)
print('Данные договора', contractdata)
print('Заявитель физическое или юридическое лицо?', ifperson)
print('Можно ли идентифицировать лицо, на которого пожаловались?', ifidentified)
print('Указан ли в обращении номер договора?', ifcontract)
print('Жалоба касается комиссии за обслуживание рублевого счета?', ifcomission)
return {'application': app_info, 'debug': debug_info}
# application = '''Я, Кристенгоф Оксана Михайловна, заключила кредитный договор с ПАО Камабанк № 59875 и № 456835645645654
# и договор на выдачу кредитной карты с ПАО "БСТ-Банк" №4567652124534235 и №4561254153412.
# 12.08.2020 года направила в банки заявление на истребование кредитной документации заказным письмом с уведомлением,
# но банки мне так ничего и не прислали. Прошу поспособствовать в том,что кредитные организации выслали мне кредитные договоры.
# '''
# verbose = False
# app_info = getApplicationInfo(application)
# print(app_info)
# Результат:
# {'Сектор': 'Кредитные организации',
# 'Продукт': 'Качество обслуживания',
# 'Проблема': 'Проблемы, связанные с качеством обслуживания',
# 'Заявитель': 'Кристенгоф Оксана Михайловна',
# 'Физлица': 'Кристенгоф Оксана Михайловна',
# 'Данные договора': 'Номер договора: 59875, Дата: 12.08.2020\nНомер договора: 456835645645654, Дата: 12.08.2020',
# 'Заявитель физическое или юридическое лицо?': 'Физ.лицо',
# 'Можно ли идентифицировать лицо, на которого пожаловались?': 'да',
# 'Указан ли в обращении номер договора?': 'да',
# 'Жалоба касается комиссии за обслуживание рублевого счета?': 'нет'}