Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feature]: 욕 마스킹 기능이 있으면 좋을 것 같아요 #196

Open
minsoo-web opened this issue Jul 22, 2024 · 8 comments
Open

Comments

@minsoo-web
Copy link
Member

Description

한글에는 너무 많은 욕이 있습니다. 한글 도메인을 담은 es-hangul 이 마스킹을 해줄 수 있는 기능이 있으면 너무 좋을 것 같아요.

Possible Solution

es-hangul 에서 제공하는 욕설 (국립국어권에 등재된 욕설) dict 를 제공하고, 사용자가 추가로 설정할 수 있는 인터페이스면 좋을 것 같아요

etc.

No response

@manudeli
Copy link
Member

manudeli commented Jul 22, 2024

josa와 비슷하게 이런 인터페이스면 좋을 거 같네요. 리뷰가 많은 곳에서 필요한 기능일 수 있겠네요

yock("<욕설>아", { replaceChr: "*" }) // **아로 변경

@seungrodotlee
Copy link
Member

영어나 특수문자를 섞어 사용하는 욕설이나, 자모음을 분리하여 사용하는 욕설 등 변형된 욕설들(ex. tlqkf, ^^ㅣ발, ㅅㅣ발)도 disassemble 된 데이터를 기반으로, 유사도를 측정하거나 특정 기호들을 치환하여 비교하는 형태로 잡아낼 수도 있을 것 같네요!

@okinawaa
Copy link
Member

MVP로는, 마스킹(치환) 하는것은 사용하는 개발자에게 위임한 뒤, 한글인 욕설을 detect하는 것도 좋을 것 같아요!

@po4tion
Copy link
Collaborator

po4tion commented Aug 4, 2024

@minsoo-web 님 혹시 국립국어원에 등재된 욕설 링크 공유 가능하신가요?

@minsoo-web
Copy link
Member Author

안녕하세요, @po4tion
제가 이슈에 적은 내용은 욕설이 정리된 링크 또는 문서가 있다는 형태로 적은 것 같네요.

찾아보니 국립국어원에서 제공하는 공식 문서나 오픈 API(공공데이터 포털)는 없는 것 같았습니다.
다만, 표준국어대사전의 상세 검색에서 속되게 이르는 말 이라는 검색어를 통해 대략적인 데이터를 크롤링할 수 있을 것으로 보입니다.

image

@okinawaa
Copy link
Member

es-hangul의 역할은 욕설들의 리스트만 제공해주면 될 것 같다고 생각합니다.
욕설인지 여부를 체크하거나, 욕설을 마스킹하거나 하는 추가적인 처리들은 사용하는 쪽에 위임하는것이 좋을 것 같아요.

욕설 리스트 또한 어떤 서비스에서는 어떤 단어를 욕설로 볼지, 욕설로 보지 않을지 모호한 부분이 있을 것 같아요.
법적으로 한국어 욕설리스트가 딱 정해져 있지도 않은 것 같고요.

이렇게 유연한 특징을 가진 욕설과 같은 경우는 es-hangul에서 다루기보다는 서비스 개발자들이 구현하는것이 es-hangul의 유지보수성 및 서비스 개발자들의 비즈니스 구현가능성 측면에서 더 좋다고 생각합니다.

@okinawaa
Copy link
Member

추가적인 논의가 없어 이슈 닫도록 하겠습니다!
니즈가 있으시다면, 다시 이슈 올려주세요! 감사합니다

@okinawaa okinawaa reopened this Dec 19, 2024
@lumirlumir
Copy link
Contributor

@okinawaa 안녕하세요, 이슈가 다시 열렸길래 의견 하나 남깁니다!

ESLint의 경우, 전역으로 사용되는 global에 대한 정보를 가져올 때, ESLint 개발자인 nzakas가 함께 개발한 sindresorhus/globals 패키지에 존재하는 JSON 데이터를 바탕으로 활용합니다.

해당 데이터셋은 자바스크립트 생태계에서 사용되는 모든 global에 대한 정보가 담겨있어 여러 패키지에서 활용할 수 있는걸로 알고 있습니다.

이처럼 es-hangul 레포지토리에서도, 따로 관련된 모노레포를 추가하는 방식 혹은 새로운 레포를 만드는 방식으로 한글 욕설 관련 JSON 데이터 셋을 제공하는 부분은 어떠신지요?

이렇게 하면 많은 분들이 es-hangul을 사용하는데 도움이 될 것 같습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants