File size: 1,638 Bytes
973f02b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import streamlit as st
from PIL import Image, ImageOps
import matplotlib.pyplot as plt

st.write("""
 ## 📝 Итоги проекта Рекомендательные системы.
""")
"""
###### 1. Парсинг профильных сайтов, итоговый с kino.mail.ru.
"""

st.image('images/mem.jpg', width=400)

"""
###### 2. Сбор и анализ информации с киносервисов. Формирование датасета. Итоговый размер - 14939 объектов.
"""
col1, col2 = st.columns(2)

with col1:
    st.image('images/1.jpeg')

with col2:
    st.image('images/2.jpeg')
# st.image('images/1.png')

"""
###### 3. Предобработка данных от лишных символов и пропусков.
"""
st.image('images/3.jpeg')
st.image('images/4.jpeg')

"""
###### 4. Векторизация с использованием очередной модели RuBERT
"""
st.write("По классике использовался rubert-base-cased-sentence от DeepPavlov")
st.write("Предобученная на русском датасете модель для классификации текстов")
st.write("Показала себя лучше, чем узкопрофильные модели от sentence_tran, т.к. они мультиязычные и имеют меньший словарный запас")
st.write("rubert_tiny_2 также показал себя не с лучшей стороны")
st.write("По процессу все стандартно, токенизация, пэдинг, обрезание...вектор")