-
Notifications
You must be signed in to change notification settings - Fork 1
Промежуточные результаты
- Инструмент для процессинга репозиториев, позволяющий доставать историю изменений на уровне методов и деревьев
- У нас есть модель, предсказывающая по пачке изменений методов их автора. Работает на данный момент с высокой точностью (внутри одного проекта Intellij, 16 авторов)
- Модель позволяет достать веса для каждого метода в пачке и посмотреть, какие изменения важнее для итогового предсказания (не реализовано)
-
Развить задачу определения авторства
a. Кросс-проектное определение авторов
b. Научиться переходить к нашему формату с батчами из произвольного куска кода / файла / что там еще общепринято
c. Реализовать подходы других людей, чтобы иметь возможность сравниваться
d. Кому это нужно?
-
Предложить способ векторизации программистов
a. Как оценивать адекватность? Например, спросить у людей и проанализировать, имеет ли близость векторов какой-то смысл.
-
В обоих случаях мы можем попытаться сделать результат независящим от области
a. Собрать несколько проектов с пересекающимися авторами
b. Обучаясь на всех проектах кроме одного, различать авторов в последнем / для последнего обучать только решающую функцию
c. Для реализации добавить дискриминатор
-
Интерпретация векторизации: спроецировать какие-нибудь свойства на векторизацию
a. Свойствами могут быть явные фичи из статьи про деанонимизацию (усредненные по всем изменениям человека?)
b. Опыт в команде, опыт в общем, использование библиотек, идиом языка
-
Интерпретация важности методов
a. Помогает интерпретировать близость векторов