Japanologentag 2022, Sektion Information- und Ressourcenwissenschaften
Python: Data cleaning
# User-Name (Erwähungen), URL, Hash-tags und Zeilenumbrüche aus dem Tweets entfernen
tw_text = re.sub(r'@\w+','', ['text'])
tw_text = re.sub(r'(http|https)://[0-9a-zA-Z\./]+','', tw_text)
tw_text = re.sub(r'#.+?(\s|$)', '', tw_text)
tw_text = re.sub(r'\n','', tw_text)
# Kana soll immer in Fullwidth-Zeichen dargestellt werden
tw_text = mojimoji.han_to_zen(tw_text, kana=True, digit=False, ascii=False)
# Digit und Ascii sollen immer in Halfwidth-Zeichen dargestellt werden
tw_text = mojimoji.zen_to_han(tw_text, kana=False, digit=True, ascii=True)
Japanologentag 2022, Sektion Information- und Ressourcenwissenschaften