康煕部首こうきぶしゅ PDF文字化け正常化

PDF変換で文字化けした文字を元の文字に戻します。

PDF変換で文字化けした文字を元の文字に戻します。CJK部首補助も対応。

康煕部首こうきぶしゅ PDF文字化け正常化

CJK部首補助も対応

PDF変換により康煕部首に置き換わってしまった文字を元の文字に変換します。
Unicode 2F00-2FDF の文字を正規の日本語文字へ戻します。
Unicode 2E80-2EFF のCJK部首補助にも対応。
処理はJavaScriptで完結しています。サーバーにアップロードされませんので機密データも安心。個人利用無料、商用利用無料。

文字を入力またはペースト:

CJK部首補助

康熙部首

CJK部首補助
0 】個見つかりました。
康熙部首
0 】個見つかりました。

正常化した文字列

動作環境(2022-10-05時点)
・Google Chrome 105
・Microsoft Edge 105
・Mozilla Firefox 105
・Apple Safari 16.0
使い方
康煕部首が混ざった文字列または疑わしい文字列を入力欄へペーストします。調査結果と変換結果が表示されます。
康煕部首とは:
Unicode 2F00-2FDF の文字です。
特定の条件でPDFに変換すると日本語の漢字が別の文字コードに置き換わってしまう現象が有ります。
10年前から発生している現象とのことです。(2022時点の10年前なので2012年ごろから?)
文字コードが変換されてしまいますので、PDF内の検索でヒットしませんし、PDFからコピーした文章が異常なままとなってしまい、2次災害も発生します。
印刷物で使用した場合は問題になることはあまりありません。なぜなら目視では気づかないからです。
ウェブサイトなどにこの文章が使用されてしまうと検索でヒットしませんのSEOとしてはとても不利な状況となります。
データベースへの登録ではさらに厄介で、検索結果に出ないなど大きな障害が発生します。
康煕部首を見分ける方法:
特定のテキストエディタ(秀丸エディタなど)では、康煕部首の文字は小さく表示され、違和感がありますので発見することが出来ます。ただし見落としも十分考えられ、必ず発見されるとは言い難いでしょう。
康煕部首一覧:
⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕

対応する類似漢字一覧:
一|、丿乙」二亠人儿入八冂冖冫几凵刀力勹匕匚匸十卜卩厂厶又ロ口土士父夂夕大女子宀寸小尢尸屮山巛工己巾干幺广廴廾弋弓彐彡彳心戈戸手支攴文斗斤方无日曰月木欠止歹殳母比毛氏气水火爪父爻爿片牙牛犬玄玉瓜瓦甘生用田疋疒癶白皮皿目矛矢石示禸禾穴立竹米糸缶网羊羽老而耒耳聿肉臣自至臼舌舛舟艮色艸虍虫血行衣襾見角言谷豆豕豸貝赤走足身車辛辰辵邑酉采里金長門阜隶佳雨靑非面革韋韭音頁風飛食首香馬骨高髟鬥鬯鬲鬼魚鳥鹵鹿麥麻黄黍黒黹黽鼎鼓鼠鼻齊齒龍龜龠

この通り、フォントによっては全く同一に見えるため、非常に厄介です。
確認状況(再現性):
Microsoft Word で、フォントをメイリオにして「印刷 - Microsoft Print To PDF」でPDF化した場合に文字コードの置換が「⼪⼳⾧⿁」の4個発生しました。
Microsoft Word で、フォントをYu Gothic UIにして「印刷 - Microsoft Print To PDF」でPDF化した場合に文字コードの置換が「⼪⼳⾧⿁」の4個発生しました。
Windows メモ帳で、フォントをメイリオにして「印刷 - Microsoft Print To PDF」でPDF化した場合に文字コードの置換が「⼪⼳⾧⿁」の4個発生しました。
Windows メモ帳で、フォントをMeiryo UIにして「印刷 - Microsoft Print To PDF」でPDF化した場合に文字コードの置換が「⼪⼳⾧⿁」の4個発生しました。

この様に「メイリオ」「Meiryo UI」「Yu Gothic UI」などで文字コード変換が行われてしまうようです。MS Pゴシック などでは問題ありませんでした。
これらフォント以外にも文字コード変換の可能性はありそうです。
PDFからコピーした文字列は全て疑ってかかるのがよさそうです。
CJK部首補助 2E80-2EFF
検索文字と変換文字。必ずしも変換後の文字が正しいとは限りません。1対1で対応するものでもありません。
康熙部首 2F00-2FDF
検索文字と変換文字。必ずしも変換後の文字が正しいとは限りません。1対1で対応するものでもありません。
「CJK部首補助」のご提案は利用者様から頂きました。ありがとうございました。(2023-07-08)
この記事は2022年10月当時の物です。
2023年7月、CJK部首補助への対応。康熙部首の文字再設定。
このサイトについてのお問い合わせはエーオーシステムまでお願いいたします。
ご使用上の過失の有無を問わず、本プログラムの運用において発生した損害に対するいかなる請求があったとしても、その責任を負うものではありません。